AI大模型（三）基于Deepseek搭建本地RAG私人知识库全面攻略

最新推荐文章于 2025-05-09 08:45:00 发布

阿阿阿安

最新推荐文章于 2025-05-09 08:45:00 发布

阅读量5.5k

点赞数 19

分类专栏： # AI大模型【学术研究】文章标签：人工智能 deepseek 大模型知识库 RAG

本文链接：https://blog.csdn.net/qq_40772692/article/details/145537812

版权

【学术研究】同时被 2 个专栏收录

17 篇文章

订阅专栏

AI大模型

4 篇文章

订阅专栏

AI大模型（三）基于Deepseek搭建本地RAG私人知识库全面攻略

DeepSeek开源大模型在榜单上以黑马之姿横扫多项评测，其社区热度指数暴涨、一跃成为近期内影响力最高的话题，这个来自中国团队的模型向世界证明：让每个普通人都能拥有媲美GPT-4o的智能体，不再是硅谷巨头的专利。随着DeepSeek的爆火和出圈、以及社区的完善和上手门槛的降低，AI大模型与普通人的距离也越来越近，对AI大模型的使用在未来很可能会成为一项主流的工作技能。基于此，本系列文章将以DeepSeek为例，从本地大模型部署、可视化服务UI、本地知识库搭建、大模型部署调优、破除大模型限制以及角色定制、酒馆使用等方面进行保姆级教学（陆续更新中…），让你轻松玩转大模型，享受大模型带来的便利与乐趣。

在这里插入图片描述

在本文开始之前，我们先简单回顾下上篇文章的内容，在上篇文章中我们详细介绍了基于 DeepSeek 本地搭建可视化交互UI的三种方式：Open WebUI、Chatbox AI和Page Assist插件。在本篇文章中，我们将进一步基于Deepseek搭建本地RAG私人知识库，让AI大模型帮你管理文档、数据、资料等知识内容，使其回答更加精确且贴合需求、成为真正意义上更加定制化的助手。除此之外，我们还将对知识库实现的关键—检索增强生成（RAG）技术的核心原理进行介绍，知其然知其所以然。

一. 知识库搭建方法

在搭建定制化本地个人知识库时，除了提供DeepSeek大模型外，我们还需要实现知识库及其与大模型的关联，目前行业中已经有多种主流的知识库实现框架及应用，包括AnythingLLM、Dify、MaxKB、FastGPT、CherryStudio等，它们在功能丰富性、知识库能力、部署方式等方面各有优缺点，本文将以AnythingLLM为例进行知识库搭建与部署，其他方式大家可以自行探索。

1. 安装AnythingLLM

AnythingLLM 官网： https://anythingllm.com/

AnythingLLM Github： https://github.com/Mintplex-Labs/anything-llm

1.1 官网下载与安装

在这里插入图片描述

在 AnythingLLM 官网选择本机系统对应的下载方式（此处以Windows为例），点击下载完成后，双击安装包即可执行AnythingLLM客户端的安装过程（此处可以修改安装路径），等待安装完成后会自动生成桌面快捷方式，双击打开即可进入主界面的引导页如下：

在这里插入图片描述

1.2 安装报错问题

在安装过程中需要注意可能会出现以下 Error 报错问题： 这个错误的意思是 无法下载 LocalLLM 相关的依赖库（访问被禁止 403），但其他所有提供程序均可正常使用。

在这里插入图片描述

AnythingLLM 客户端包含一个通过内置 Ollama 提供支持的默认本地 LLM 模型，这是一种无需任何额外设置即可开始使用 LLM 的超级便捷方式，因此在安装 AnythingLLM 客户端时会尝试自动下载并安装 LocalLLM 及其相关的依赖库，并且这些额外的依赖项可以让该本地 LLM 模型使用本机上的 GPU（NVIDIA 或 AMD）甚至 NPU，如果未安装这些额外的依赖项，本地 LLM 模型的性能会降低（将被限制仅使用 CPU 处理）。这里有两种解决方法：

手动下载： 依赖项包地址（需要魔法） https://cdn.anythingllm.com/support/0.5.4/ollama/win32_lib.zip，将其下载并解压到 AnythingLLM 安装目录下的ollama文件夹下即可；
使用本地模型： 不使用AnythingLLM提供的内置LocalLLM模型就可以不用关心该问题（直接忽略），后面直接在 AnythingLLM 中选择使用本地的 Ollama 提供模型服务即可；

2. 配置 AnythingLLM

打开 AnythingLLM 客户端后，在引导页面中我们首先需要选择模型提供商（LLM providers），这里我们就选择Ollama以及之前部署在本地Ollama中的deepseek-r1:7b模型。

在这里插入图片描述

点击下一步后进入信息提示页，可以看到AnythingLLM的三大核心组件即LLM（大语言模型）、Embedding（嵌入模型）和 Vector Database（向量数据库），这里直接点击下一步即可（后续配置都是可修改的）。

在这里插入图片描述

接着这一页面主要是信息调研相关，可以直接点击下方Skip Survey按钮跳过：

在这里插入图片描述

然后需要创建工作区，AnythingLLM 中可以创建多个工作区，每个工作区内可以包含多个对话，工作区之间是相互独立的（包括模型、配置和知识库等），这里我们先随便创建一个即可。

在这里插入图片描述

然后就进入了 AnythingLLM 的主界面，工作区之间是相互独立的，注意对每个工作区需要重新配置如下（否则用的模型是AnythingLLM默认的本地LLM），更新完一定要再点击一下下方的Update workspace按钮更新工作区设置才能生效。

在这里插入图片描述

3. 配置RAG知识库

在配置RAG知识库时，我们需要配置三个核心组件即大语言模型（LLM）、嵌入模型（Embedding）和向量数据库（Vector Database），其中LLM大模型我们选择之前Ollama中部署的deepseek-r1:7b即可，那么嵌入模型（Embedding）和向量数据库（Vector Database）的概念如下：

嵌入模型（Embedding）： 用于将上传的文件等知识库数据进行向量化的模型，将自然数据嵌入到向量维度。它提供了一种将文本数据转化为计算机可以理解和处理的形式，同时保留了词语之间的语义关系；
向量数据库（Vector Database）： 用于存储、检索和查询文本嵌入模型进行向量化后的向量数据，在构建知识库过程中主要起到数据存储的作用；

3.1 配置嵌入模型

嵌入模型可以在Ollama提供的模型仓库中进行下载，这里推荐使用nomic-embed-text模型或者bge-m3模型，二者的区别如下（本文将选择bge-m3为例进行部署）：

nomic-embed-text：https://ollama.com/library/nomic-embed-text，模型小且速度快，对纯文本的处理效果较好；
bge-m3：https://ollama.com/library/bge-m3，模型较大，支持多语言、多功能、多粒度等特性，模型的泛化性和准确性更好；

在这里插入图片描述

在Ollama官网的模型仓库中搜索bge-m3并复制获取命令，然后在本地命令窗口中执行（需本地已安装Ollama，没安装的可以看我之前的教程），然后等待下载完成即可。

在这里插入图片描述

下载完成后，在 AnythingLLM 左下角的设置 - Embedder 首选项，将嵌入模型的提供商改为Ollama并在模型中选择bge-m3，如果没找到请使用ollama list查看模型是否下载成功。

在这里插入图片描述

3.2 配置向量数据库

这里使用 AnythingLLM 默认内置的 LanceDB 即可，如果选择其他的向量数据库则需要配置对应数据库的地址、 API Key等进行外部连接信息，不同的向量数据库将会影响存储大小、检索速度、查询效果等。

在这里插入图片描述

4. 使用RAG知识库

在使用RAG数据库之前，我们需要先上传文件、数据等知识库内容，并保存到向量数据库中。这里的操作步骤是先在 AnythingLLM 的工作区上点击上传按钮，并上传需要管理的文件（支持多种文件格式）或爬取网络链接。

在这里插入图片描述

上传完成后，选中需要保存的文件项，并点击下方的Move to Workspace按钮将其移动到右侧工作区并保存向量化（否则上传内容不会被大模型所感知）。

在这里插入图片描述

那么最后，就可以在工作区中创建对话，并针对文档内容进行提问使用了，可以看到模型在回答时会结合知识库内容综合进行回答，并展示所引用的文件项。

在这里插入图片描述

除此之外，我们还可以在工作区设置中，更换查询模式来增强文档来源的权重，以及设置提示模板、温度等参数让大模型更加智能和准确，对于大模型的调优、破限、角色定制等更多好玩的内容我们将在下篇文章中继续进行详细介绍，请大家多多关注！

在这里插入图片描述

二. RAG技术作用原理

在使用大模型的过程中，我们发现大语言模型本身具有一定的局限性：

时效性： 大模型训练所使用的数据集都不是实时的，这意味着在该时间点之后所出现的数据更新都不会反映在模型中，并且大模型的训练均涉及庞大的计算资源和时间，因此频繁更新模型也是不现实的；
全面性： 大模型的训练数据集可能无法覆盖所有领域的知识与深度，尤其是在某些专业领域或非公开私有知识库中，这将使得大模型在回答相关问题时缺乏逻辑和可信度；

基于上述局限，大模型在处理某些问题时可能就会生成虚假信息，在用户看来其回答可能就像是答非所问、回答错误或内容空泛，这就是我们常说的模型幻觉问题，要解决模型幻觉，RAG的提出就是一种较好的解决方案。

检索增强生成（Retrieval-augmented Generation，RAG） 是一种结合检索和生成技术的模型，也是大模型研究的前沿方向之一，上述利用大模型搭建知识库的过程就是RAG技术的应用。 RAG的核心思想是通过检索和引用外部大规模数据集合中的相关信息，并利用这些信息来指导答案或内容的生成，这使得结果具有较强的可解释性和定制能力，从而提高预测的质量和准确性，从而避免模型幻觉问题的出现，解决模型训练过程中的局限性。其作用原理如下（图源 @akshay_pachaar）：

在这里插入图片描述

数据加载与分块（Custom knowledge and Chunks）： 数据集合是RAG的核心基础，可以通过多种工具从不同来源加载各种数据，这可以表现为结构化数据或非结构化数据（文件、图片、音视频等），甚至可能是两者兼具的综合形式。接着，通过分块技术将加载的大输入文本有策略的分解成小数据块，确保所有输入能够适应嵌入模型的限制大小并提高检索效率；
向量嵌入与嵌入模型（Embeddings and Embedding Model:）： 通过嵌入模型将多模态数据（文本、图片、音频等）表示为数值向量，使其能够输入到大模型中；
向量数据库（Vector Databases）： 向量数据库是一类特殊的数据库（Database），其表示一组预先计算的数据矢量，用于实现持久化存储、快速检索和相似性搜索，具有 CRUD 操作、元数据过滤和水平扩展等功能；
提示词模板（Prompt Template）： 提示词模板的内容将作为输入提供给LLM以产生最终响应结果，其包含用户查询和自定义知识库中搜索到的相似检索作为上下文，以共同指导大模型生成更加准确的内容；