完全本地化的AI知识库:DeepSeek+RAG终极部署手册

本文将介绍 DeepSeek 大模型 + RAG 技术构建本地知识库的方法,将 DeepSeek 本地大模型与丰富的本地知识库相结合,并使用 CST/ABAQUS 官方支持文档创建了一个 “虚拟 CST/ABAQUS 技术支持工程师” AI 智能体,验证了 AI 模型 + 行业本地知识库在业务中的实际运用效果。这些数据和经验不仅为 “虚拟工程师” demo 今后的升级迭代提供了充足的训练素材,也使得 AI 技术支持的个性化定制成为可能,以更好地满足特定业务需求。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

关键词:DeepSeek;RAG(Retrieval-Augmented Generation);Embedding;RAGFlow;本地知识库;AI;

一、前言

在当今这个信息爆炸的时代,人工智能技术正以前所未有的速度发展。其中,DeepSeek 作为新一代的 AI 选手,迅速成为行业内的焦点。DeepSeek 在多项性能测试中已经达到了 OpenAI 的最新大模型 o1 水平,部分项目还实现了超越,在多项评测中表现优异,甚至直逼世界顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet。

目前,我们已经在公司的高性能服务器上完成了本地 AI 智能助手部署的 demo,通过大参数量的 DeepSeek 本地大模型(70b 及以上)与丰富的本地知识库相结合,成功创建了 “虚拟 CST/ABAQUS 技术支持工程师” 这一 AI 智能体,验证了 AI 模型 + 行业本地知识库在业务中的实际运用效果。

考虑到现有网络平台已涵盖大量详尽的部署指南,本文将聚焦技术框架的核心流程梳理与关键参数解析,以系统化方式呈现本地知识库构建方法论,具体实施细节将不会过多展开说明。

二、技术方案概述

2.1 整体架构:DeepSeek-R1 模型与 RAG 技术相结合

在选择 AI 模型时,我们考虑引入 DeepSeek 本地大模型,并结合 RAG(Retrieval-Augmented Generation)技术构建整体架构。

RAG 技术工作思路:先解析本地数据库,将文本、图像或其他类型数据转换成高维向量,而后将原始问题和引用的知识内容以向量形式整合到生成模型的输入中,增强生成的文本质量

RAG 技术工作思路:先解析本地数据库,将文本、图像或其他类型数据转换成高维向量,而后将原始问题和引用的知识内容以向量形式整合到生成模型的输入中,增强生成的文本质量

DeepSeek 是一款专注于推理的模型,特别适用于利用已有的知识库高效回答客户问题。其高效的推理能力和多模态融合特性,使得 DeepSeek 在处理复杂逻辑任务和长文本时表现出色。DeepSeek-R1 不仅在数学、代码和自然语言推理等任务上表现卓越,性能直接对标 OpenAI 的 o1 正式版,同时使用 MIT 协议以开源形式向全球开发者开放。

DeepSeek

DeepSeek

而 RAG 技术则通过检索增强生成,进一步提升模型的检索和生成能力。通过从外部知识库中检索相关信息,并将这些信息整合到生成模型的输入中,以增强生成的文本质量、准确性和相关性。

在知识库中导入文档后,系统会通过分块处理将文档切割为语义连贯的片段(Chunk)。这些文本块会经过嵌入模型(Embedding Model)转化为高维向量,存储至向量数据库(Vector DB)。当用户发起问答请求时,系统通过向量相似度检索匹配的文本片段,并将问题与相关上下文共同输入大语言模型(LLM),完成检索增强生成(Retrieval-Augmented Generation,RAG)的智能问答流程。

RAG 技术对本地知识库处理的流程图,图源 Cherry Studio 官方文档

RAG 技术对本地知识库处理的流程图,图源 Cherry Studio 官方文档

这种方法能有效解决大型语言模型在处理训练数据外信息时的 “幻觉” 问题。文献表明,RAG 技术通过动态检索外部知识库实现行业适配(Lewis et al., 2020),这种架构既保留了通用模型的对话能力,又能通过知识库更新扩展专业认知边界。现有研究表明其综合成本显著低于全参数微调方案(Izacard et al., 2022)。相较于微调模型需要重新训练参数的方式,RAG 技术通过动态检索外部知识库实现行业适配,无需承担高昂的模型重训练成本。

2.2 部署方式:完全本地部署

通过全链路本地化部署架构,实现数据从存储到处理的端到端闭环,在消除外部攻击面的同时确保毫秒级响应速度。技术验证采用 Ollama 容器化框架集成 Cherry Studio 平台及 RAGFlow 智能检索系统,基于离线环境完成向量数据库构建与模型推理,使敏感信息全程驻留内网。

2.3 实现效果:高效、准确、清晰

该 “虚拟工程师” demo 可以快速且准确地查询 CST、ABAQUS 软件的帮助文档和工程案例,相比传统检索的方式, “虚拟工程师” demo 更能深刻理解用户的需求。通过 DeepSeek-R1 模型与 RAG 技术的结合,“虚拟工程师” demo 能够快速、准确地找到相关文档和案例,提供精准的答案和建议。

ABAQUS 问题响应结果

ABAQUS 问题响应结果

CST 问题响应结果

CST 问题响应结果

相比传统的单纯使用 “微调模型” 技术方案(可类比为 “考前复习”),大模型与 RAG 技术工作流程(可类比为 “开卷考试”)能够结合具体行业学习的内容,更有针对性地给出建议的解决方案。该方案不仅提升了模型的适应性和灵活性,还显著提高了问题解决的效率和准确性。

部署本地知识库后,在思考的过程中会引用知识库内容

部署本地知识库后,在思考的过程中会引用知识库内容

三、部署流程

3.1 总览

下表展示了不同部署方式的主要特点,大家可以根据自身的情况和需求,决定部署的方式。

|

| 在线部署

(保密性较低)

| 本地部署

(保密性较高)

| 备注 |
| — | — | — | — |
| 大模型:答题考生

模型规模通常较大

|

1.调用对应服务商的 API。
2.部分服务商有免费额度,超过免费额度需要充值。

|

1.直接下载并安装部署到本地。
2.运行效果取决于模型规模和计算机配置,需根据配置选用合适参数的模型。

|

本地部署:推荐先部署 1.5b 的模型,流程跑通后再根据需要升级更大参数的模型。

|
| 知识库:学习内容

需要配合嵌入模型(规模较小)

|

1.调用对应服务商的 API。
2.知识库内容会上传到云端。

|

1.部分 AI 平台已经集成,也可手动部署。
2.知识库支持离线部署。

|

个人用户:根据需要选择。
企业用户:优先考虑本地部署。

|

本文将聚焦本地化部署方案,以轻量级模型DeepSeek-R1:1.5b为示范,通过三步走流程实现零门槛安装:

  • 环境搭建:使用开源工具Ollama,通过 ollama run deepseek-r1:1.5b 命令完成模型加载;

  • 离线运行:所有数据在本地完成向量化处理与推理,避免敏感信息外传;

  • 硬件适配:1.5b 版本仅需 4GB 内存即可流畅运行,适合个人电脑部署。

若需云端服务,可通过 API 调用实现弹性扩展(访问 DeepSeek API 控制台 创建密钥)。这种混合架构既满足基础场景的离线需求,又为复杂任务保留云端算力扩展空间。

Ollama外,美国公司开发的LM Studio亦支持本地大模型部署,但其闭源架构导致企业用户无法进行源代码审计与安全漏洞验证,在企业级应用中需额外考虑供应链安全验证环节。从技术可控性角度出发,建议企业级场景优先采用开源方案。

3.2 部署DeepSeek

1.从官网下载并安装Ollama,过程略。可参考 https://ollama.com/

点击 Download 下载对应系统版本的安装包。

点击 Download 下载对应系统版本的安装包。

2.在 Ollama 模型列表中复制命令ollama run deepseek-r1:1.5b,粘贴到命令行中,等待下载完成。

此处以最低版本作为示例,后续会推荐适合的模型规模。

此处以最低版本作为示例,后续会推荐适合的模型规模。

下载完成后,可直接在命令行中与模型对话,检查模型能否正常加载。

下载完成后,可直接在命令行中与模型对话,检查模型能否正常加载。

3.安装对话界面软件,可以更直观地调整模型的参数和提示词,同时也支持将对话内容完全存档在本地。推荐Cherry Studio https://cherry-ai.com/

4.配置远程 Ollama 服务(可选)。默认情况下,Ollama 服务仅在本地运行,不对外提供服务。要使 Ollama 服务能够覆盖在局域网内的设备中,需要设置以下两个环境变量:

  
`OLLAMA_HOST=0.0.0.0   OLLAMA_ORIGINS=*   `

安全警告

  • Ollama 服务的端口默认为 11434,为了安全起见,建议在防火墙中设置仅允许局域网访问端口11434,并禁止公网访问。

  • 为避免安全风险,请不要将 Ollama 服务暴露在公共网络中,确保路由器未设置端口转发(NAT)到11434端口。

5.评估电脑最大可以运行的模型参数。根据对应参数的模型大小,对比计算机配置(如显卡、显存、内存、CPU等)与实际应用效果(如共享显存占用、CPU/GPU占用等)。

  • 由于模型运行时需要直接载入显存,当显存不足时则会载入共享显存(内存)。因此,在实际部署的前期阶段,可根据显存和内存大小预估可运行的模型规模,即模型空间 < 显存 + 内存

  • 显存的读写速率要远大于内存,在内存中运行对于 LLM 而言,其延迟将会难以接受,表现在运行过程中为“吐字极慢”。因此,当共享显存占用率较高(或占用大小与模型本身的空间比值较大),则说明该模型负载过大,建议缩小模型规模。

3.3 知识库

简略版:使用内置知识库的 AI 对话平台

以下平台可根据个人喜好选择:

1.Cherry Studio设置方式:参考 https://docs.cherry-ai.com/knowledge-base/knowledge-base

2.AnythingLLM设置方式:参考 https://docs.anythingllm.com/introduction

至尊版:使用 docker 部署 RAGFlow

可参考:

https://ragflow.io/ https://www.bilibili.com/video/BV1WiP2ezE5a/

1.安装 RAGFlow 1. 安装 docker 2. 拉取 RAGFlow 镜像

  • 可访问官方 GitHub 仓库的 README 页面拉取镜像,并按照文档中的指引安装部署:https://github.com/infiniflow/ragflow/blob/main/README_zh.md

  • 如果遇到问题,可访问网络上部署 RAGFlow 的踩坑帖子,如:https://blog.csdn.net/gr1785/article/details/145543754?spm=1001.2014.3001.5502

2.添加本地模型 1.在浏览器输入http://localhost:88,并注册账号和组织(该账号基于本地服务)。 2.在页面中选择 Ollama,并选择对应的模型类型。(DeepSeek 模型选择 chat,bge-m3 模型选择 embedding) 3.按照控制台Ollama -list命令中列出的模型名称填写(建议在列表中复制)。 4.基础 URL:http://host.docker.internal:114345.最大 token 数可随便填写(本地部署不消耗在线 token)。 6.按照上述方法分别添加 chat 模型embedding 模型

RAGFlow 添加本地模型配置示例

RAGFlow 添加本地模型配置示例

3.设置快速启用服务脚本

可编写一个批处理文件start_ragflow.bat

  
`@echo off      :: 解决中文乱码问题   chcp 65001 >nul   title RAGFlow启动器      :: 进入docker目录启动服务   cd /d "你的RAGFlow路径,以\ragflow-main\docker结尾"   docker compose up -d      :: 打开浏览器访问页面   start """http://localhost:80"      echo RAGFlow服务已启动,浏览器即将打开...   pause   `

4.设置知识库

由于网上关于RAGFlow的内容众多,在 RAGFlow 中设置知识库的具体步骤,可根据官方文档或网络教程操作,在此不再赘述。

创建好的知识库

创建好的知识库

3.4 参数调整

参数背景知识

以下内容摘录自Cherry Studio文档:https://docs.cherry-ai.com/cherrystudio/preview/chat#wen-du-temperature

Temperature(温度)

温度参数控制模型生成文本的随机性和创造性程度(默认值为0.7或1.0,不同软件/平台有不同的设置)。具体表现为:

  • 低温度值(0-0.3):输出更确定、更专注,适合代码生成、数据分析等需要准确性的场景。

  • 中等温度值(0.4-0.7):平衡了创造性和连贯性,适合日常对话、一般性写作。

  • 高温度值(0.8-1.0):产生更具创造性和多样性的输出,适合创意写作、头脑风暴等场景。

Top P(核采样)

默认值为 1,值越小,AI 生成的内容越单调,也越容易理解;值越大,AI 回复的词汇范围越大,越多样化。

核采样通过控制词汇选择的概率阈值来影响输出:

  • 较小值(0.1-0.3):仅考虑最高概率的词汇,输出更保守、更可控,适合代码注释、技术文档等场景。

  • 中等值(0.4-0.6):平衡词汇多样性和准确性,适合一般对话和写作任务,

  • 较大值(0.7-1.0):考虑更广泛的词汇选择,产生更丰富多样的内容,适合创意写作等需要多样化表达的场景。

💡

  • 这两个参数可以独立使用或组合使用

  • 根据具体任务类型选择合适的参数值

  • 建议通过实验找到最适合特定应用场景的参数组合

  • 以上内容仅供参考和了解概念,所给参数范围不一定适合所有模型,具体可参考模型相关文档给出的参数建议。

场景配置

不同业务场景中 LLM 模型的参数需求往往有着明显差异,需要结合理论与实践结果进行调整。下表系统地梳理了TemperatureTop-P参数的协同配置策略,综合考量了输出质量、创意需求及风险控制三个维度,并标注典型应用场景的实践验证效果。

参数调整建议

  1. 优先调整单一参数:通常仅需调整TemperatureTop-P,避免两者同时大幅改动。

  2. 高温+中低Top-P:在创意任务中,高温配合稍低Top-P(如0.8)可平衡多样性与质量。

  3. 低温+低Top-P:用于高精度任务(如法律文本生成),确保输出高度可控。

  4. 提示词约束: 可以增加知识库中无查询内容情况下输出信息,最大化利用模型本身的知识范围。例如:【如果知识库中没有找到相关的信息,请现在回答的开头说明“我不了解这个问题,但我会根据我自己的理解尝试回答”,然后再讨论你的见解。】

四、总结

通过以上操作,即可在本地计算机或服务器上搭建一套完全离线的 AI 本地知识库查询系统。且效果能够随着模型参数、知识库参数的优化而变得更明显。目前,该方案已在企业内部知识管理、智能客服等场景落地,在保障数据安全的前提下,让企业知识库真正「活起来」。

DeepSeek 推理模型与 RAG 技术的结合,为构建企业专属知识库的业务场景提供了高效的解决方案。通过将行业积累的技术文档、项目经验等结构化数据与 AI 深度结合,既能让系统精准理解专业术语,又能基于实时更新的知识库生成可靠回答。采用这种架构的方案,既保留了通用大模型的对话能力,又通过持续学习企业特有知识,实现「越用越懂业务」的个性化效果。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

### 关于 Deepseek、Ollama 和 Ragflow 的本地部署实施方案 #### Deepseek 本地部署概述 Deepseek 是一款专注于自然语言处理的知识库解决方案,支持高效的文档管理和语义搜索功能。对于希望构建私有知识管理系统的用户来说,Deepseek 提供了一套完整的工具链来帮助完成从数据采集到索引建立再到最终查询服务的一系列操作[^1]。 为了在本地环境中安装和配置 Deepseek: 1. **环境准备** - 安装 Docker 及其相关组件。 - 配置必要的网络设置以便容器间通信顺畅。 2. **拉取镜像与初始化数据库** 使用官方提供的命令下载最新版本的应用程序包,并按照指引创建初始结构化的存储空间用于保存后续导入的数据集。 3. **加载预训练模型** 根据具体应用场景选择合适的机器学习算法框架作为后台支撑力量,在此基础上加载已经过优化调整过的参数文件以加速新项目的开发周期。 4. **集成第三方API接口** 如果项目中有涉及到外部资源调用的需求,则可通过 RESTful 或 GraphQL 协议轻松对接各类公共服务平台所提供的 API 接口,从而扩展应用的功能边界。 5. **测试验证环节** 利用内置的压力测试工具模拟真实世界的并发访问情况,确保整个系统能够在高负载条件下稳定运行;同时也要注意定期备份重要资料以防意外丢失。 ```bash docker pull deepseek/latest docker run --name=deepseek-db -e POSTGRES_USER=user -e POSTGRES_PASSWORD=password -d postgres:latest ``` #### Ollama 本地部署指南 Ollama 致力于为企业提供一站式的AI驱动型知识管理系统,具备良好的可移植性和灵活性特点。通过简单的几行脚本即可快速搭建起一套基于云原生架构设计的服务集群,满足不同规模企业内部协作交流过程中所产生的多样化诉求。 针对想要自行托管实例的情况而言: - 下载适用于目标操作系统类型的二进制执行文件; - 修改默认配置项中的监听地址端口号等基本信息; - 启动主进程之前先检查依赖关系是否齐全; - 访问浏览器输入指定URL路径查看图形界面版控制面板; - 导入样例工程熟悉基本的操作流程之后再逐步引入实际生产环境里的素材内容进行加工整理。 ```jsonnet { "api": { "listen_addr": ":8080", "max_body_size_mb": 10, ... }, } ``` #### Ragflow 本地部署说明 Ragflow 特别适合那些寻求高级定制选项和技术深度的企业级客户群组,拥有出色的 RAG 引擎及工作流编排能力,可以应对更为复杂多变的任务场景要求[^2]。下面是一份简化后的部署手册摘要: ##### 准备阶段 - 确认硬件设施达标(CPU/GPU内存容量充足) - 获取授权许可密钥激活产品特性权限 - 设置 GitLab CI/CD 流水线自动化持续交付管道 ##### 执行步骤 - 构建基础镜像并推送至私有的 Harbor 私服仓库内待命 - 编写 Helm Chart 文件定义好各微服务之间的关联映射关系图谱 - 应用 YAML 清单描述符启动 K8S Pod 实例集合体形成分布式计算网格布局 - 登录 Web 控制台页面校验各项指标数值是否正常无误 ```shell helm install my-release ./ragflow-chart \ --set image.repository=my.harbor.repo/ragnaroek/ragflow-server \ --set image.tag=v1.0.0 \ -f values.yaml ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT猫仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值