搭建大模型知识库流程，以及基于langchain实现大模型知识库案例

AI_小站

于 2024-09-09 12:02:03 发布

阅读量676

点赞数 10

文章标签： langchain 人工智能大模型训练大语言模型大模型应用 RAG 本地知识库

本文链接：https://blog.csdn.net/python1234567_/article/details/142055457

版权

“ RAG检索增强生成是为了解决大模型知识不足的问题 ”

大模型主要面临三个问题：

垂直领域内的知识不足

大模型知识有时间限制

大模型幻觉问题

第一个问题产生的原因是因为，没有经过垂直领域数据训练的大模型普遍表现不好；其次是目前的大模型采用的是预训练模式，也就是说需要先收集训练数据进行训练，但只能收集之前的数据，不能收集当前和以后的数据；最后就是大模型幻觉问题，幻觉问题产生的原因就是知识不足，导致在一些领域问题中一本正经的胡说八道。

因此，说到底大模型产生以上三个问题的主要原因就是知识不足，因此RAG——检索增强生成技术就出现了。

RAG技术配合知识库技术，就能够补充大模型知识不足的问题，知识库的作用就相当于给大模型配置一个资料室，遇到不懂的就去资料室里查。

今天，我们就来讨论一下本地知识库的实现步骤，以及代码。

知识库的实现步骤及代码

严格来说，解决大模型知识不足问题的技术是RAG——检索增强生成，而不是知识库技术。

知识库技术在大模型之前就已经出现了，简单来说就是公司内部的文档系统，里面记录了企业内部的资料，文档等，形式可以是一个web系统，甚至就是一个文件夹。

而我们今天说的大模型知识库是基于RAG技术，结合知识库技术产生的一个变种，主要区别就是数据格式问题。

RAG文档检索生成，就是通过把资料向量化，并为了提升查询效率需要把向量化的文档存入到向量数据库，然后每次在问大模型之前，先去向量数据库中查询与问题相关的内容，通过提示词的方式一并传入到大模型中，这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是，在传统的查询搜索过程中，使用的主要是基于字符匹配的方式进行查询，比如说你想查询西红柿炒蛋的做法，查询的内容中就必须包含西红柿和炒蛋这几个字。

而有了大模型技术，把资料向量化之后，就可以通过语义进行查询，大模型会根据语义分析，知道西红柿和番茄是一个东西。

大模型知识库的原理就是给大模型外挂一个资料库，但大模型毕竟不是人，需要把资料，文档等转化为大模型能够识别的格式，就是文档向量化。

搭建大模型知识库，需要经过以下几个步骤：

文档加载

在当今互联网时代，知识的形式多种多样，比如文本格式的就是txt，word，pdf等；还有其它格式如图片，结构化数据以及非结构化数据等。

因此，打造一个知识库需要支持多种文档，以及不同文档的加载路径，如本地加载，网络加载等；而这就是文档加载需要解决的问题。

文档分割

在大模型应用中，长文本处理是一个问题，并且大模型窗口都有上下文长度限制；并且，文档还需要处理成大模型能够识别的向量格式，因此对一些长文本文档需要进行文本分割，解决文档过长而导致的问题。

文档分割根据不同的任务场景，需要进行不同的处理，比如文档分割的长度，分割形式(比如，段落，标点符号等)，重叠长度等。

词嵌入

在传统的知识库系统中，文档是以文本，图片，视频等格式存在的，使用者主要是人，因此只需要能够通过网络加载文档即可。

但在大模型应用中，大模型不认识字，它能够处理的格式只有向量。而且，还需要进行语义分析，因此需要通过词嵌入的方式，把文档转化为大模型能够处理的，且语义连贯的形式，也就是向量格式，而这个技术就叫做词嵌入。

词嵌入工具本质上也是一个大模型，只不过是专门训练用来完成语义理解和向量转化的模型。

Sentence-transformer 词嵌入python 库可以支持多种嵌入模型或者可以使用第三方提供的转化工具，比如openAI，通义千问等。

文档处理整体流程入下图所示：

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来，一般使用的是向量数据库。

当大模型需要使用的时候，再通过检索的形式从向量数据库中获取。

文档存储的作用是为了解决查询效率的问题，但也并不是必须的；比如说，当你知识库的内容很少的时候，你也可以选择每次提问的时候，重新加载文档并向量化，这样之前向量化过的文档就存储在向量数据库中，下次使用的时候就可以直接从数据库中查询。

就类似于在web开发中，你也可以把用户数据通过｜或某种符合间隔起来并保存到txt文件中，每次查询的时候需要读取文件并解析数据，这样就会非常的麻烦；而如果把用户信息存储到数据库中，就会方便的多。

文档检索

从向量数据库中，通过语义对数据进行检索，然后把检索结果带入到大模型中，供大模型使用。技术实现是通过数学计算，根据向量计算相对位置，位置越近语义相关度越高；比如欧式距离，cos值等。

RAG的难点和重点是数据的质量和检索质量，也就是说本地知识库的好坏和使用的模型(用来回答问题的模型，不是词嵌入的模型)没有什么关系，只是和你检索的效果有关。

简单来说就是，你的知识库数据质量和向量数据库的质量越好，RAG的效果才越好。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AI_小站

关注

10
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫