【完全本地部署】DeepSeek模型+RAG技术构建本地知识库

一、前言

在当今这个信息爆炸的时代,人工智能技术正以前所未有的速度发展。其中,DeepSeek 作为新一代的 AI 选手,迅速成为行业内的焦点。DeepSeek 在多项性能测试中已经达到了 OpenAI 的最新大模型 o1 水平,部分项目还实现了超越,在多项评测中表现优异,甚至直逼世界顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet。

目前,我们已经在公司的高性能服务器上完成了本地 AI 智能助手部署的 demo,通过大参数量的 DeepSeek 本地大模型(70b 及以上)与丰富的本地知识库相结合,成功创建了 “虚拟 CST/ABAQUS 技术支持工程师” 这一 AI 智能体,验证了 AI 模型 + 行业本地知识库在业务中的实际运用效果。

二、技术方案概述

2.1 整体架构:DeepSeek-R1 模型与 RAG 技术相结合

在选择 AI 模型时,我们考虑引入 DeepSeek 本地大模型,并结合 RAG(Retrieval-Augmented Generation)技术构建整体架构。

RAG 技术工作思路:先解析本地数据库,将文本、图像或其他类型数据转换成高维向量,而后将原始问题和引用的知识内容以向量形式整合到生成模型的输入中,增强生成的文本质量

RAG 技术工作思路:先解析本地数据库,将文本、图像或其他类型数据转换成高维向量,而后将原始问题和引用的知识内容以向量形式整合到生成模型的输入中,增强生成的文本质量

DeepSeek 是一款专注于推理的模型,特别适用于利用已有的知识库高效回答客户问题。其高效的推理能力和多模态融合特性,使得 DeepSeek 在处理复杂逻辑任务和长文本时表现出色。DeepSeek-R1 不仅在数学、代码和自然语言推理等任务上表现卓越,性能直接对标 OpenAI 的 o1 正式版,同时使用 MIT 协议以开源形式向全球开发者开放。

DeepSeek

而 RAG 技术则通过检索增强生成,进一步提升模型的检索和生成能力。通过从外部知识库中检索相关信息,并将这些信息整合到生成模型的输入中,以增强生成的文本质量、准确性和相关性。

在知识库中导入文档后,系统会通过分块处理将文档切割为语义连贯的片段(Chunk)。这些文本块会经过嵌入模型(Embedding Model)转化为高维向量,存储至向量数据库(Vector DB)。当用户发起问答请求时,系统通过向量相似度检索匹配的文本片段,并将问题与相关上下文共同输入大语言模型(LLM),完成检索增强生成(Retrieval-Augmented Generation,RAG)的智能问答流程。

RAG 技术对本地知识库处理的流程图,图源 Cherry Studio 官方文档

RAG 技术对本地知识库处理的流程图,图源 Cherry Studio 官方文档

这种方法能有效解决大型语言模型在处理训练数据外信息时的 “幻觉” 问题。文献表明,RAG 技术通过动态检索外部知识库实现行业适配(Lewis et al., 2020),这种架构既保留了通用模型的对话能力,又能通过知识库更新扩展专业认知边界。现有研究表明其综合成本显著低于全参数微调方案(Izacard et al., 2022)。相较于微调模型需要重新训练参数的方式,RAG 技术通过动态检索外部知识库实现行业适配,无需承担高昂的模型重训练成本。

2.2 部署方式:完全本地部署

通过全链路本地化部署架构,实现数据从存储到处理的端到端闭环,在消除外部攻击面的同时确保毫秒级响应速度。技术验证采用 Ollama 容器化框架集成 Cherry Studio 平台及 RAGFlow 智能检索系统,基于离线环境完成向量数据库构建与模型推理,使敏感信息全程驻留内网。

2.3 实现效果:高效、准确、清晰

该 “虚拟工程师” demo 可以快速且准确地查询 CST、ABAQUS 软件的帮助文档和工程案例,相比传统检索的方式, “虚拟工程师” demo 更能深刻理解用户的需求。通过 DeepSeek-R1 模型与 RAG 技术的结合,“虚拟工程师” demo 能够快速、准确地找到相关文档和案例,提供精准的答案和建议。

ABAQUS 问题响应结果

ABAQUS 问题响应结果

CST 问题响应结果

CST 问题响应结果

相比传统的单纯使用 “微调模型” 技术方案(可类比为 “考前复习”),大模型与 RAG 技术工作流程(可类比为 “开卷考试”)能够结合具体行业学习的内容,更有针对性地给出建议的解决方案。该方案不仅提升了模型的适应性和灵活性,还显著提高了问题解决的效率和准确性。

部署本地知识库后,在思考的过程中会引用知识库内容

部署本地知识库后,在思考的过程中会引用知识库内容

三、部署流程

3.1 总览

下表展示了不同部署方式的主要特点,大家可以根据自身的情况和需求,决定部署的方式。

请添加图片描述

本文将聚焦本地化部署方案,以轻量级模型DeepSeek-R1:1.5b为示范,通过三步走流程实现零门槛安装:

  • 环境搭建:使用开源工具Ollama,通过 ollama run deepseek-r1:1.5b 命令完成模型加载;

  • 离线运行:所有数据在本地完成向量化处理与推理,避免敏感信息外传;

  • 硬件适配:1.5b 版本仅需 4GB 内存即可流畅运行,适合个人电脑部署。

3.2 部署DeepSeek

1、从官网下载并安装Ollama,过程略。可参考 https://ollama.com/

点击 Download 下载对应系统版本的安装包。

点击 Download 下载对应系统版本的安装包。

2、在 Ollama 模型列表中复制命令ollama run deepseek-r1:1.5b,粘贴到命令行中,等待下载完成。

此处以最低版本作为示例,后续会推荐适合的模型规模。

此处以最低版本作为示例,后续会推荐适合的模型规模。

下载完成后,可直接在命令行中与模型对话,检查模型能否正常加载。

下载完成后,可直接在命令行中与模型对话,检查模型能否正常加载。

3、安装对话界面软件,可以更直观地调整模型的参数和提示词,同时也支持将对话内容完全存档在本地。推荐Cherry Studio https://cherry-ai.com/

4、配置远程 Ollama 服务(可选)。默认情况下,Ollama 服务仅在本地运行,不对外提供服务。要使 Ollama 服务能够覆盖在局域网内的设备中,需要设置以下两个环境变量:

OLLAMA_HOST=0.0.0.0   
OLLAMA_ORIGINS=*   

5、评估电脑最大可以运行的模型参数。根据对应参数的模型大小,对比计算机配置(如显卡、显存、内存、CPU等)与实际应用效果(如共享显存占用、CPU/GPU占用等)。

3.3 知识库

简略版:使用内置知识库的 AI 对话平台

以下平台可根据个人喜好选择:

1.Cherry Studio设置方式:参考 https://docs.cherry-ai.com/knowledge-base/knowledge-base

2.AnythingLLM设置方式:参考 https://docs.anythingllm.com/introduction

至尊版:使用 docker 部署 RAGFlow

可参考:

https://ragflow.io/ https://www.bilibili.com/video/BV1WiP2ezE5a/

1.安装 RAGFlow 1. 安装 docker 2. 拉取 RAGFlow 镜像

  • 可访问官方 GitHub 仓库的 README 页面拉取镜像,并按照文档中的指引安装部署:https://github.com/infiniflow/ragflow/blob/main/README_zh.md

  • 如果遇到问题,可访问网络上部署 RAGFlow 的踩坑帖子,如:https://blog.csdn.net/gr1785/article/details/145543754?spm=1001.2014.3001.5502

2.添加本地模型

  • 1、在浏览器输入http://localhost:88,并注册账号和组织(该账号基于本地服务)。

  • 2、在页面中选择 Ollama,并选择对应的模型类型。(DeepSeek 模型选择 chat,bge-m3 模型选择 embedding

  • 3、按照控制台Ollama -list命令中列出的模型名称填写(建议在列表中复制)。

  • 4、基础 URL:http://host.docker.internal:11434

  • 5、最大 token 数可随便填写(本地部署不消耗在线
    token)。

  • 6、按照上述方法分别添加 chat 模型embedding 模型

RAGFlow 添加本地模型配置示例

RAGFlow 添加本地模型配置示例

3、设置快速启用服务脚本

可编写一个批处理文件start_ragflow.bat

@echo off     
 
:: 解决中文乱码问题   
chcp 65001 >nul   
title RAGFlow启动器      

:: 进入docker目录启动服务   
cd /d "你的RAGFlow路径,以\ragflow-main\docker结尾"   
docker compose up -d      

:: 打开浏览器访问页面   
start """http://localhost:80"      

echo RAGFlow服务已启动,浏览器即将打开...   
pause   `

4、设置知识库

由于网上关于RAGFlow的内容众多,在 RAGFlow 中设置知识库的具体步骤,可根据官方文档或网络教程操作,在此不再赘述。

创建好的知识库

创建好的知识库

3.4 参数调整

参数背景知识

Temperature(温度)

温度参数控制模型生成文本的随机性和创造性程度(默认值为0.7或1.0,不同软件/平台有不同的设置)。具体表现为:

  • 低温度值(0-0.3):输出更确定、更专注,适合代码生成、数据分析等需要准确性的场景。

  • 中等温度值(0.4-0.7):平衡了创造性和连贯性,适合日常对话、一般性写作。

  • 高温度值(0.8-1.0):产生更具创造性和多样性的输出,适合创意写作、头脑风暴等场景。

Top P(核采样)

默认值为 1,值越小,AI 生成的内容越单调,也越容易理解;值越大,AI 回复的词汇范围越大,越多样化。

核采样通过控制词汇选择的概率阈值来影响输出:

  • 较小值(0.1-0.3):仅考虑最高概率的词汇,输出更保守、更可控,适合代码注释、技术文档等场景。

  • 中等值(0.4-0.6):平衡词汇多样性和准确性,适合一般对话和写作任务,

  • 较大值(0.7-1.0):考虑更广泛的词汇选择,产生更丰富多样的内容,适合创意写作等需要多样化表达的场景。

💡

  • 这两个参数可以独立使用或组合使用

  • 根据具体任务类型选择合适的参数值

  • 建议通过实验找到最适合特定应用场景的参数组合

  • 以上内容仅供参考和了解概念,所给参数范围不一定适合所有模型,具体可参考模型相关文档给出的参数建议。

场景配置

不同业务场景中 LLM 模型的参数需求往往有着明显差异,需要结合理论与实践结果进行调整。下表系统地梳理了TemperatureTop-P参数的协同配置策略,综合考量了输出质量、创意需求及风险控制三个维度,并标注典型应用场景的实践验证效果。

场景Temperature 范围Top-P 范围说明
代码生成0.1–0.30.1–0.3极低温+极低Top-P,减少语法错误,确保代码逻辑正确。
技术文档如代码、产品说明0.2–0.50.5–0.7低温+中低Top-P,确保输出准确结构化,避免冗余内容。
客户服务如聊天机器人0.5–0.80.7–0.9平衡自然与可控,保留部分多样性以灵活应答。
创意写作如诗歌、故事生成0.7–1.20.8–0.95高温+高Top-P,鼓励多样性,需注意逻辑连贯性。
开放探索如头脑风暴、灵感激发1.0–1.50.95–1.0高温+全覆盖Top-P,牺牲准确性以激发意外创新。
本地知识库如业务数据分类、结构化信息抽取、知识问答0.2–0.50.5–0.7降低随机性,确保输出稳定和事实准确,同时聚焦高频候选词,避免低质量内容干扰。

参数调整建议

  1. 优先调整单一参数:通常仅需调整TemperatureTop-P,避免两者同时大幅改动。

  2. 高温+中低Top-P:在创意任务中,高温配合稍低Top-P(如0.8)可平衡多样性与质量。

  3. 低温+低Top-P:用于高精度任务(如法律文本生成),确保输出高度可控。

  4. 提示词约束: 可以增加知识库中无查询内容情况下输出信息,最大化利用模型本身的知识范围。例如:【如果知识库中没有找到相关的信息,请现在回答的开头说明“我不了解这个问题,但我会根据我自己的理解尝试回答”,然后再讨论你的见解。】

四、总结

通过以上操作,即可在本地计算机或服务器上搭建一套完全离线的 AI 本地知识库查询系统。且效果能够随着模型参数、知识库参数的优化而变得更明显。目前,该方案已在企业内部知识管理、智能客服等场景落地,在保障数据安全的前提下,让企业知识库真正「活起来」。

DeepSeek 推理模型与 RAG 技术的结合,为构建企业专属知识库的业务场景提供了高效的解决方案。通过将行业积累的技术文档、项目经验等结构化数据与 AI 深度结合,既能让系统精准理解专业术语,又能基于实时更新的知识库生成可靠回答。采用这种架构的方案,既保留了通用大模型的对话能力,又通过持续学习企业特有知识,实现「越用越懂业务」的个性化效果。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

<think>嗯,用户想在Linux系统上部署DeepSeek大语言模型,并设置支持局域网访问的知识库。首先,我需要回顾一下之前提供的引用内容,看看有哪些步骤可以参考。 根据引用[1],用户提到使用Ollama和Page Assist浏览器插件来部署DeepSeek,并且目标是在局域网服务器部署,让其他电脑访问。所以第一步应该是安装Ollama。引用[2]里提到了在Ubuntu环境下使用llama.cpp进行CPU与GPU混合推理,可能需要安装一些依赖项,比如build-essential、cmake、curl等。还有引用[3]提到设置Ollama服务主机的固定IP,确保局域网访问。 接下来,我需要整理步骤。首先安装Ollama,然后拉取DeepSeek模型。安装依赖项的时候,可能需要按照引用[2]中的命令执行,比如更新apt-get,安装必要的软件包。然后配置Ollama的网络设置,使其监听所有IP地址,这样其他局域网内的设备才能访问。引用[3]中提到了设置固定IP,这可能需要用户手动配置网络接口,比如修改/etc/netplan下的配置文件或者使用nmcli工具。 另外,关于知识库部分,用户可能想结合LangChain或类似框架来管理本地文档,构建RAG应用。需要安装LangChain,并编写Python代码来加载文档、处理文本、建立向量数据库,并通过Ollama的API进行交互。这部分可能需要示例代码,比如使用LangChain的文档加载器和文本分割器,然后使用HuggingFaceEmbeddings生成向量,最后用Chroma作为向量存储。 用户可能遇到的问题包括Ollama服务无法启动、局域网无法访问、模型加载失败等。这时候需要检查防火墙设置,确保端口11434开放,Ollama服务是否正确监听0.0.0.0,以及模型是否下载正确。 最后,生成相关问题时要考虑部署中的常见问题,比如性能优化、安全设置、模型微调等,以及如何扩展知识库的应用场景。</think>### 分步教程:Linux系统部署DeepSeek模型并支持局域网访问知识库 --- #### **一、基础环境部署** 1. **安装Ollama框架** 通过官方脚本安装Ollama服务(需联网): ```bash curl -fsSL https://ollama.com/install.sh | sh ``` 验证安装:`systemctl status ollama`[^1] 2. **拉取DeepSeek模型** 选择适合的模型版本(如`deepseek-llm:7b`): ```bash ollama pull deepseek-llm ``` 查看已安装模型:`ollama list` --- #### **二、配置局域网访问** 1. **设置Ollama监听地址** 修改服务配置文件,允许所有IP访问: ```bash sudo systemctl edit ollama.service ``` 在文件中添加: ```ini [Service] Environment="OLLAMA_HOST=0.0.0.0" ``` 重启服务:`sudo systemctl restart ollama`[^3] 2. **配置服务器固定IP** 通过`nmcli`设置静态IP(示例): ```bash sudo nmcli con mod "有线连接" ipv4.addresses 192.168.1.100/24 ipv4.gateway 192.168.1.1 ipv4.dns "8.8.8.8" ipv4.method manual sudo nmcli con up "有线连接" ``` 3. **防火墙放行端口** 允许11434端口通信: ```bash sudo ufw allow 11434/tcp ``` --- #### **三、知识库集成(RAG应用)** 1. **安装LangChain框架** 使用Python环境安装依赖: ```bash pip install langchain chromadb sentence-transformers ``` 2. **编写知识库处理脚本** ```python from langchain.document_loaders import DirectoryLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma # 加载本地文档 loader = DirectoryLoader('/path/to/docs', glob="**/*.txt") documents = loader.load() # 分割文本 text_splitter = RecursiveCharacterTextSplitter(chunk_size=500) texts = text_splitter.split_documents(documents) # 生成向量数据库 embeddings = HuggingFaceEmbeddings() vector_db = Chroma.from_documents(texts, embeddings, persist_directory="./chroma_db") ``` 3. **通过API调用模型** 使用CURL测试接口: ```bash curl http://服务器IP:11434/api/generate -d '{ "model": "deepseek-llm", "prompt": "如何解释量子纠缠?", "context": {"knowledge_base": "./chroma_db"} }' ``` --- #### **四、验证与调试** 1. **局域网客户端测试** 其他设备访问: ```python import requests response = requests.post('http://192.168.1.100:11434/api/chat', json={ "model": "deepseek-llm", "messages": [{"role": "user", "content": "简述相对论"}] }) print(response.json()) ``` 2. **常见问题排查** - **服务未启动**:检查`journalctl -u ollama.service` - **连接被拒绝**:确认防火墙和SELinux状态 - **模型加载慢**:添加`--n-gpu-layers 20`参数提升GPU利用率[^2] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值