LLM | 基于大语言模型搭建私有化知识库

最新推荐文章于 2025-03-25 10:13:51 发布

大模型_

最新推荐文章于 2025-03-25 10:13:51 发布

阅读量1.1k

点赞数 5

文章标签：语言模型人工智能自然语言处理知识图谱产品经理大数据

本文链接：https://blog.csdn.net/2301_76168381/article/details/138958950

版权

有了自己的大语言模型之后，就可以对大语言模型进行一些私有化的改造，让他变成自己的私人助理，本公众号会往这个方向继续探索大语言模型更多的可能性。

本期先讲一下关于私有化大语言模型的一个基本应用——打造个人知识库。

为了实现把个人知识库与大语言模型链接起来，需要用到langchain。
之前在github上有一个项目，叫langchain-ChatGLM。但是在上个月底，这个项目进行了超大动作的改版，改版后名称改为Langchain-Chatchat，其部署方式也有了比较大的变化。

编者自己试了新旧两个版本，发现新版（Langchain-Chatchat）的部署方式，虽然说主打一键部署，但编者自己没能成功“一键”，用了很多键才完成部署，在这个挫折的过程中，巧合之下编者找到了旧版的源代码**（联系文末微信号获取）**，发现旧版本部署起来比新版容易太多。

因此，这一篇文章先讲旧版的部署方式，下一篇文章再讲新版的部署方式。

免责声明：教程是通过B站多位大佬以及各种百度总结出来的，本人是小白也不大懂，本文内容并不保证正确甚至可能有严重错误，请各位读者自行判断。本人是使用者，不是开发者。不足之处，欢迎各位读者指正。

下面让我们开始吧。

注意：本期内容是紧接着上期讲的，必须按照上期的内容完成了大语言模型的部署，然后才能按本期的方式搭建知识****库。

登陆阿里云

首先，我们登陆阿里云，右上角搜索“PAI”。

进入【产品控制台】。

点击【交互式建模】，启动上一期布置好的实例。

新建终端

启动实例之后，我们进入终端。如果是接着上一篇文件直接开始的，可以关掉原来的终端，再新建一个终端。

上传langchain-ChatGLM

切换到【Notebook】。

把旧版langchain-ChatGLM的源代码，拖动到文件窗口中，拖动后会自动上传。因为不想一个个文件上传，所以先把他打包成一个压缩包。

接下来，我们对其进行解压操作。首先，安装7z。

sudo apt-get install p7zip-full

之后，进行解压缩：

7z x langchain-ChatGLM.7z

解压成功后，就可以看到解压后的文件。

切换回【Terminal】（终端）。

进入langchain-ChatGLM文件夹

cd langchain-ChatGLM

从huggingface克隆一遍文字向量处理模型。第一次git chone没成功的话，就再clone一次，编者也是输入两次才成功的。

git clone https://huggingface.co/GanyMedeNil/text2vec-large-chinese

安装依赖

在终端中输入以下代码，进入langchain-ChatGLM文件夹

cd langchain-ChatGLM

输入下面代码安装依赖。
注意：超过15天未重新登录，环境会被回收。如果被回收，需要重新安装依赖。

pip install -r requirements.txt

修改配置文件

切换到【Notebook】，找到langchain-ChatGLM/config路径下的model_config.py文件，双击打开。

把“text2vec"的路径，改成以下路径，如下图所示。

text2vec-large-chinese

注：此处用的是相对路径。因为到时候我们会在langchain-ChatGLM路径下启动知识库，所以这里改成“text2vec-large-chinese”，意思是：文字项目模块的文件夹是langchain-ChatGLM的子文件夹。

接下来，改下大模型所在的路径，如下图所示：

../ChatGLM2-6B/model

滚动到下面，确认下大模型的名称，确实是“chatglm2-6b"。

启动模型

到这里，所有的准备动作就完成了。确认当前路径是：langchain-ChatGLM。输入以下代码，启动知识库：

python webui.py

顺利的话，可以看到，开始走进度条。

如果能看到以下界面，说明启动成功了。

点击这个链接，会自动打开一个网页。

这就是自动打开的网页：

到这里，就是成功了，接下来，就可以进行知识库问答体验了。

体验问答

为了感受使用知识库前后的差别，我们先在LLM模式（不使用知识库）下进行对话。
首先把对话模式设置为：LLM对话，然后问他：请问建筑工程的四个抗震设防类别是什么？
他的回答是：一类建筑、二类建筑、三类建筑、四类建筑，并给出解释。看着有模有样，但实际上行内人一看，就知道这是大模型在胡说八道。

接下来我们加载一下知识：

切换到【知识库问答】模式，在下拉菜单中选择一个知识库，如选择“samples"。此时，界面会变成如下图所示，会多出一个上传文件的区域。

我们把准备好的知识文件拖到到下面这个区域。知识文件可以是txt、pdf或者md格式。

编者拖动了一个抗震设防分类标准的文件，文件内容中，对抗震设防类别进行了描述。

拖进去之后，点击【上传文件并加载知识库】。

解析之后，会在对话框中提示：已添加xx内容到知识库。

有知识库之后，再问他同样的问题。

发现他这次回答已经准确多了，而且还会列出答案的出处。

上传更多的文件，来丰富自己的知识库吧。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-