【项目实训】基于RAG技术的知识库对话探索

最新推荐文章于 2024-09-03 17:37:15 发布

Cecilia_97

最新推荐文章于 2024-09-03 17:37:15 发布

阅读量640

点赞数 22

分类专栏：项目实训文章标签： nlp langchain 语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/Cecilia_9728/article/details/139857863

版权

15 篇文章 0 订阅

订阅专栏

知识库对话初尝试

首先使用前端，进行一些知识库对话的prompt尝试

知识库总结质量并不太好：只有抽取原回答的能力，甚至不能修改
在这里插入图片描述
匹配知识条数如果过长，会输出失败

原本以为哪里有问题，在github上找到了同样问题，有人这样回答：[BUG] ERROR: TypeError: Caught exception: object of type ‘NoneType’ has no len() · Issue #3727 · chatchat-space/Langchain-Chatchat (github.com)，看来暂时无法改变

在这里插入图片描述
除此之外，也需要清空历史内容，否则长度过长，输出失败

prompt1：你可以帮我总结一下java后端有什么常考的知识点吗？以json格式输出，key是知识点的名称，value是由问题组成的列表

结果：答案太长可能输出不完
在这里插入图片描述
prompt2：请你总结一下阿里面试中的题目类型，并给出该类型下的所有题目

匹配知识条数3

在这里插入图片描述
匹配知识条数为10条

并不是匹配条数越多越好！当文档数量表少时，如果匹配条数多于6个，会提示如下：

显然，1个文档中可以返回多个“知识条数”

经过资料查阅，发现RAG技术有一个显著缺点！！

当信息蕴含在较长的上下文时，基于片段的搜索召回，一定会丢失数据，导致最终无法正确的回答问题。

实际上复杂的问题，这里只是说问题本身倾向于从全文获取答案，而不仅仅是基于片段

根据文章提示，我们先走有两条可走的方向

虽然可以尝试用树或图的结构来组织知识库，但这需要较大的学习经历，相当于从零开始研究。由于时间限制，我决定先使用大模型来集成数据，在未来休闲的时间当中，我可以研究一下如何构建一个更层次化的知识库。

如何分类？我们没有标注数据，即我们事先并不知道有什么样子的题目，那就只能让大模型自己进行总结。总结出题目类别后，我们在对这些类别进行聚类。

关注