茴香豆:知识问答助手作业 + 上传自己的文档

教程:Tutorial/docs/L2/Huixiangdou/readme.md at camp3 · InternLM/Tutorial · GitHub

安装环境和依赖

pip install BCEmbedding==0.15  没这个版本,我猜是0.1.5
pip install BCEmbedding==0.1.5 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0

测试通过:

启动Gradio

两轮回答:

什么是RAG 搜索增强生成?

什么是向量数据库?

怎么上传自己的文件构建知识库回答?

在云盘,找到root/huixiangdou/repodir文件夹

把你的文件复制进去, 我上传了两个PDF论文

再运行一下命令。这个命令是向量化和存储

python3 -m huixiangdou.service.feature_store

方便起见,我就把原来repodir下的文件 和workdir下数据库的两个文件夹都清空了

可以看到两篇论文被载入处理

再启动后端命令行测试

python3 -m huixiangdou.main --standalone

提问新问题

第一个问题:什么是大模型增强知识图谱?

回答还不错

第二个问题:数据检索组织方法是什么?

这个问题回答效果不好,可能和pdf格式有关,也可能和分块大小有关。

看上去召回的文本块太大导致prompt很大。

RAG选哪个?个人观点:

想构建自己的本地RAG知识库,建议试试RAGFlow,docker构建方便,定制选项很多,效果可见。

看到公众号上很多文章推AnythingLLM,不推荐,看上去搭建很快,回答效果差的无法接受。

FastGPT、Dify、Qanyhting都试过,个人感觉RAGflow效果更好,希望帮你少走弯路。

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值