茴香豆：知识问答助手作业 + 上传自己的文档-CSDN博客

本文链接：https://blog.csdn.net/VC_Alexa/article/details/141556494

安装环境和依赖

pip install BCEmbedding==0.15  没这个版本，我猜是0.1.5

pip install BCEmbedding==0.1.5 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0

测试通过：

什么是RAG 搜索增强生成？

什么是向量数据库？

在云盘，找到root/huixiangdou/repodir文件夹

把你的文件复制进去，我上传了两个PDF论文

再运行一下命令。这个命令是向量化和存储

python3 -m huixiangdou.service.feature_store

方便起见，我就把原来repodir下的文件和workdir下数据库的两个文件夹都清空了

可以看到两篇论文被载入处理

再启动后端命令行测试

python3 -m huixiangdou.main --standalone

第一个问题：什么是大模型增强知识图谱？

回答还不错

第二个问题：数据检索组织方法是什么？

这个问题回答效果不好，可能和pdf格式有关，也可能和分块大小有关。

看上去召回的文本块太大导致prompt很大。

想构建自己的本地RAG知识库，建议试试RAGFlow，docker构建方便，定制选项很多，效果可见。

看到公众号上很多文章推AnythingLLM，不推荐，看上去搭建很快，回答效果差的无法接受。

FastGPT、Dify、Qanyhting都试过，个人感觉RAGflow效果更好，希望帮你少走弯路。