从开发到部署,搭建离线私有大模型知识库

背景介绍

最近一段时间搭建了一套完整的私有大模型知识库,目前完整的服务已经完成测试部署上线。基本之前的实践过程,从工程角度整理技术方案以及中间碰到的一些问题,方便后续对这个方向有需求的研发同学们。

为什么做离线私有化部署

在大模型火热起来之后,很多企业都有尝试相关服务。但是实际会碰到大模型不了解公司个性化的情况,无法针对公司情况给出个性化回答。因此就出现了针对大模型的知识库,通过提供公司内部的背景知识提升大模型个性化回答的能力。

但是这个方案马上就碰到一个问题,大量公司的内部信息被泄露。因此大部分公司会选择使用私有化部署的模型,这样就解决了信息泄露问题,这就是私有化部署的企业知识库。

部分企业数据更加敏感,基础数据的服务需要离线在内部运行,因此需要搭建离线的私有化部署的企业知识库。通过这一套服务,将企业内部散落的各种类型的文档知识组织起来,从而更好地为企业提供服务。

技术方案

目前大模型知识库的构建一般是使用检索增强生成 (RAG) 的技术方案,RAG 首先会检索与问题相关的文档,之后会将检索到的信息提供给大模型(LLM),LLM 使用它们来生成更准确、更相关的响应。RAG 有两个核心组件:

  • 检索组件:负责从外部知识库中检索与用户查询相关的信息。
  • 生成组件:负责生成最终响应。生成组件通常是 LLM,例如 GPT-3 或 ChatGLM 等;

RAG 的常规流程如下所示:
在这里插入图片描述

上面的流程图中,第 1~14 步对应于信息的检索,而第 15 步对应于响应的生成。可以看到 RAG 最核心的是信息检索。下面主要关注 RAG 的检索流程。

RAG 的信息检索主要包含两个步骤:

  • 向量数据库的构建,对应于上面的 1~7 步,通过对原始的文件信息进行预处理,方便后续快速检索;
  • 用户查询流程,对应于上面的 8~15 步,通过用户查询获取匹配的信息,通过构造生成合适的 prompt,提供给大模型得到最终的结果;
向量数据库的构建

向量数据库的构建主要包含下面的步骤:

  1. 本地文件的加载,实际中文件的类型可能比较多样化,需要根据文件类型选择对应的加载器。文件加载需要去除无关的信息,从而保证后续的高效处理;
  2. 文件切分,单个文件的内容可能会过大,考虑到大模型实际可用的输入有限,一般会对加载的原始文件执行切分,得到对应的文件块;
  3. 文件块向量化,为了方便后续根据用户查询匹配对应的文件块,因此会进行文件块的向量化,这样就根据查询数据的向量与文件块的向量之间的差异确定匹配的文件块;
  4. 向量库的构建,基于向量化后的文件块构建向量数据库,后续就可以在向量数据库中进行查询;
用户检索流程

用户检索的流程主要包含下面的核心步骤:

  1. 向量化查询语句,从向量数据库中获取匹配的文件块;
  2. 将匹配的文件块与用户的查询语句合并构造为完整的 prompt;
  3. 基于 prompt 发起 LLM 查询,获得 LLM 响应;

上面的流程包含 RAG 的核心流程,如果希望提升 RAG 的效果,需要对流程中的特定环境进行优化。

方案落地

为了实现完整的 RAG 框架,常规的方案是基于 langchain 开发,langchain 提供了不同格式的文件处理的封装,而且可以快速切换不同的 LLM 从而迭代调优 RAG 系统的效果。

但是实际中我选择了对 langchain 进行了二次封装的 Langchain-Chatchat,完整看完 Langchain-Chatchat 的实现后,感觉此项目相对完善,适合作为开箱即用的 RAG 服务。

更友好的是,Langchain-Chatchat 提供了在线大模型 API 的接入,因此可以在没有强大 GPU 服务器的个人笔记本上运行起来,方便快速测试,当部署至性能更强大的 GPU 服务器上,可以通过

### 构建离线 DeepSeek 本地知识库 #### 安装环境 为了创建适合运行 DeepSeek 的 Python 环境,推荐使用 Conda 来管理依赖关系。通过下面的命令来设置一个新的虚拟环境: ```bash conda create -n deepseek python=3.10 conda activate deepseek ``` 这一步骤确保了所有后续操作都在一个干净且独立于其他项目的环境中执行[^2]。 #### 下载所需资源包 由于目标是在完全离线的情况下部署,因此需要提前在网络连接可用时下载所有的必需文件和软件包。对于 DeepSeek 和 AnythingLLM 所需的一切外部依赖项都应被预先获取并存储在一个可移动介质上以便之后转移到无网络的目标机器中。 #### 配置 DeepSeek 及 LLM 模型 一旦拥有了一切必要的组件,在隔离系统内完成最终配置之前还需要做几件事情: - 将预下载的数据集复制到指定位置; - 修改配置文件指向这些新路径; - 如果适用的话,调整任何特定参数以适应硬件条件或性能需求。 #### 初始化与测试 最后一步是对整个架构进行初始化以及功能验证。启动服务端程序并通过客户端接口提交查询请求来进行基本的功能性检测是非常重要的。如果一切正常运作,则说明已经成功建立了能够处理自定义文档集合的知识检索平台[^1]。 ```python from anythingllm import load_model, generate_response model_path = "/path/to/offline/model" loaded_model = load_model(model_path) def query_knowledge_base(question): response = generate_response(loaded_model, question) return response ``` 上述代码片段展示了如何加载已准备好的模型,并提供了一个简单的函数用于向这个私有知识库提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易迟

高质量内容创作不易,支持下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值