搭建大模型知识库流程，以及基于langchain实现大模型知识库案例

小涂Ss

于 2024-10-11 16:17:11 发布

阅读量161

点赞数 1

文章标签： langchain 人工智能语言模型 ai agi LLM RAG

本文链接：https://blog.csdn.net/Gaga246/article/details/142856993

版权

前言

“ RAG检索增强生成是为了解决大模型知识不足的问题 ”

大模型主要面临三个问题：

垂直领域内的知识不足‍‍‍‍‍

大模型知识有时间限制‍

大模型幻觉问题

第一个问题产生的原因是因为，没有经过垂直领域数据训练的大模型普遍表现不好；其次是目前的大模型采用的是预训练模式，也就是说需要先收集训练数据进行训练，但只能收集之前的数据，不能收集当前和以后的数据；最后就是大模型幻觉问题，幻觉问题产生的原因就是知识不足，导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，说到底大模型产生以上三个问题的主要原因就是知识不足，因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍

RAG技术配合知识库技术，就能够补充大模型知识不足的问题，知识库的作用就相当于给大模型配置一个资料室，遇到不懂的就去资料室里查。

今天，我们就来讨论一下本地知识库的实现步骤，以及代码。‍‍‍‍‍‍‍‍‍‍‍

知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍

严格来说，解决大模型知识不足问题的技术是RAG——检索增强生成，而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

知识库技术在大模型之前就已经出现了，简单来说就是公司内部的文档系统，里面记录了企业内部的资料，文档等，形式可以是一个web系统，甚至就是一个文件夹。‍‍

而我们今天说的大模型知识库是基于RAG技术，结合知识库技术产生的一个变种，主要区别就是数据格式问题。

RAG文档检索生成，就是通过把资料向量化，并为了提升查询效率需要把向量化的文档存入到向量数据库，然后每次在问大模型之前，先去向量数据库中查询与问题相关的内容，通过提示词的方式一并传入到大模型中，这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是，在传统的查询搜索过程中，使用的主要是基于字符匹配的方式进行查询，比如说你想查询西红柿炒蛋的做法，查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而有了大模型技术，把资料向量化之后，就可以通过语义进行查询，大模型会根据语义分析，知道西红柿和番茄是一个东西。‍‍‍

大模型知识库的原理就是给大模型外挂一个资料库，但大模型毕竟不是人，需要把资料，文档等转化为大模型能够识别的格式，就是文档向量化。

搭建大模型知识库，需要经过以下几个步骤：

文档加载

在当今互联网时代，知识的形式多种多样，比如文本格式的就是txt，word，pdf等；还有其它格式如图片，结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍

因此，打造一个知识库需要支持多种文档，以及不同文档的加载路径，如本地加载，网络加载等；而这就是文档加载需要解决的问题。‍

文档分割

在大模型应用中，长文本处理是一个问题，并且大模型窗口都有上下文长度限制；并且，文档还需要处理成大模型能够识别的向量格式，因此对一些长文本文档需要进行文本分割，解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档分割根据不同的任务场景，需要进行不同的处理，比如文档分割的长度，分割形式(比如，段落，标点符号等)，重叠长度等。‍‍‍‍‍

词嵌入

在传统的知识库系统中，文档是以文本，图片，视频等格式存在的，使用者主要是人，因此只需要能够通过网络加载文档即可。

但在大模型应用中，大模型不认识字，它能够处理的格式只有向量。而且，还需要进行语义分析，因此需要通过词嵌入的方式，把文档转化为大模型能够处理的，且语义连贯的形式，也就是向量格式，而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

词嵌入工具本质上也是一个大模型，只不过是专门训练用来完成语义理解和向量转化的模型。‍

Sentence-transformer 词嵌入python 库可以支持多种嵌入模型或者可以使用第三方提供的转化工具，比如openAI，通义千问等。

文档处理整体流程入下图所示：‍‍‍‍‍

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来，一般使用的是向量数据库。‍‍‍‍

当大模型需要使用的时候，再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍

文档存储的作用是为了解决查询效率的问题，但也并不是必须的；比如说，当你知识库的内容很少的时候，你也可以选择每次提问的时候，重新加载文档并向量化，这样之前向量化过的文档就存储在向量数据库中，下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就类似于在web开发中，你也可以把用户数据通过｜或某种符合间隔起来并保存到txt文件中，每次查询的时候需要读取文件并解析数据，这样就会非常的麻烦；而如果把用户信息存储到数据库中，就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档检索

从向量数据库中，通过语义对数据进行检索，然后把检索结果带入到大模型中，供大模型使用。技术实现是通过数学计算，根据向量计算相对位置，位置越近语义相关度越高；比如欧式距离，cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

RAG的难点和重点是数据的质量和检索质量，也就是说本地知识库的好坏和使用的模型(用来回答问题的模型，不是词嵌入的模型)没有什么关系，只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

简单来说就是，你的知识库数据质量和向量数据库的质量越好，RAG的效果才越好。‍‍‍‍‍‍

最后的最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

大模型知识脑图

为了成为更好的 AI大模型开发者，这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

小涂Ss

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫