DeepSeek+Ragflow搭建个人知识库

先说体验感受,利用参数量小的模型借助RAGFlow搭建知识库,有一点点用,但是不多。要想发挥实际作用,对知识库数据的维护需要花很多心思。

一、安装Docker Desktop

由于Docker依赖linux环境,win10以上电脑可以使用wsl来安装linux环境。

什么是WSL?WSL(Windows Subsystem for Linux)是微软开发的一项技术,允许用户在Windows系统中直接运行完整的Linux环境,无需虚拟机。通过操作系统级虚拟化,WSL将Linux子系统无缝嵌入Windows,提供原生Linux命令行工具、软件包管理器及应用程序支持。它具有轻量化、文件系统集成、良好的交互性及开发效率提升等优点,消除了Windows与Linux之间的隔阂,尤其适合开发者和需在Windows平台上使用Linux工具的用户。

1.启用window子系统及虚拟化

2.Docker Desktop配置

下载地址:https://www.docker.com/   

下载完成后,打开安装包一直下一步等待安装结束即可。

  • 提示:因为安装完成后镜像很大,默认会安装在C盘,建议更改到其他空闲盘。

打开docker desktop,会自动弹出cmd窗口,启动wsl下载linux,否则无法运行docker。这一步耐心等待即可。安装完成后,可以在我的电脑查看->linux。

3.Docker Desktop配置

最新可用的国内镜像源可以百度找找。这里提供几个当前还能用的镜像源。

“registry-mirrors”: [
“https://docker-0.unsee.tech”,
“https://docker.1panel.live”,
“https://docker.tbedu.top”,
“https://cr.laoyou.ip-ddns.com”,
“https://dockerpull.cn”,
“https://hub.fast360.xyz”
]

二、部署Ragflow

https://kkgithub.com/infiniflow/ragflow/blob/main/README_zh.md   

软硬件条件:

  • CPU >= 4 核

  • RAM >= 16 GB

  • Disk >= 50 GB

  • Docker >= 24.0.0 & Docker Compose >= v2.26.1

1.拉取ragflow

$ git clone https://github.com/infiniflow/ragflow.git   

这个过程会比较慢,可以用码云转一下github仓库,拉取速度会快很多。

2.进入docker文件夹,利用提前编译好的Docker镜像启动服务器

由于我们需要用到embedding模型,默认的ragflow镜像不自带embedding,这里需要特别注意要手动修改配置。

在拉取的ragflow仓库路径下的docker/.env 文件内的RAGFLOW_IMAGE变量,通过设置RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0来下载 RAGFlow镜像的 v0.16.0 完整发行版。 在ragflow文件夹下打开cmd窗口运行以下命令:

docker compose -f docker/docker-compose.yml up -d   

安装ragflow需要的docker镜像,拉取失败说明docker镜像源有问题,需要自行百度查询可用镜像源重新拉取。

如果你遇到 Docker 镜像拉不下来的问题,可以在 docker/.env 文件内根据变量 RAGFLOW_IMAGE 的注释提示选择华为云或者阿里云的相应镜像。

华为云镜像名:swr.cn-north-4.myhuaweicloud.com/infiniflow/ragflow   阿里云镜像名:registry.cn-hangzhou.aliyuncs.com/infiniflow/ragflow   

拉取成功后,在docker desktop里面就能看到镜像源。

3.在你的浏览器中输入你的服务器对应的IP地址并登录RAGFlow

默认打开ragflow地址http://localhost:80

三、Ragflow使用

登录ragflow,根据图片内容进行配置。需要注意基础Url需要改为ip:端口号,ollama默认端口11434

1.知识库配置

创建知识库,这里使用一份一千条中医问答数据作为测试。

如图进行创建知识库。

嵌入模型选择默认的即可,解析方法比较重要,因为使用的数据是问答形式,所以选择Q&A类型。解析方法有很多种,网页中都有解释,选择合适的解析方法能够让知识库的回答更加准确。

点击新增文件,将中医问诊数据集进行进行上传,等待系统解析完成。这个过程会比较慢,错误的解析方法也会导致解析失败。

2.创建中医问诊聊天助手

聊天模块选择新建助理,知识库选择上一步新建的中医问诊。

模型设置中选择ollama已下载模型,我选择deepseek-r1:32b模型进行测试。每个参数在网站里都有解释,这里自由度设置为精确,尽可能让大模型从知识库里回答问题,减少自由发挥。

点击确定,新建聊天。测试一下看看效果吧。

效果粗略看还可以,聊天助手还可以标注出知识库的来源。

如果能够将知识库数据整合处理好,体验效果还是不错的,这只是32b的模型,如果人人都能部署的671b呢?真是对未来充满期待。

3.多测试几个知识库,一起看看效果吧

  • 天龙八部小说:

问题1:

问题2:

  • 儿科问诊数据一千条:

  • 心理学数据一万条:

四、最后

  • 利用Deepseek+Ragflow搭建的知识库过程还是比较简单,正常跟着流程走不容易出错。如果投喂的数据经过整合处理,那么反馈的结果还是有一定的实际意义。

  • 当前个人能部署的模型参数太少,尚处于体验阶段。相信不久的将来,大模型不断发展,个人能部署性能更强大的模型。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

### 关于DeepSeekRAGFlow的技术信息 #### DeepSeek简介 DeepSeek是一个强大的深度语义搜索引擎,能够提供高效的多模态数据处理能力和实时的数据更新机制[^1]。通过集成行业知识图谱构建功能,DeepSeek可以针对特定垂直领域创建高度定制化的数据引擎。 #### RAGFlow概述 RAGFlow作为一款先进的检索增强生成框架(Retrieval-Augmented Generation Flow),旨在优化基于自然语言处理的应用程序性能。该工具允许开发者利用预训练的语言模型来提升文本摘要、问答系统等功能的表现,并且支持灵活配置以适应不同业务场景的需求[^3]。 #### 技术文档与使用教程 对于希望深入了解并有效运用这两项技术的人来说,《DeepSeek-R1官方文档》提供了详尽的产品介绍和技术细节说明;而《Ollama Modelfile配置指南》则专注于指导用户如何正确设置相关参数以便更好地发挥各个组件的作用。另外,在实际操作层面,《构建本地知识库系统实战指南》不仅涵盖了从零开始搭建整个系统的全过程——包括但不限于环境准备工作以及具体命令行指令示例,还特别强调了GPU加速特性所带来的效率增益[^2]。 #### 实现方式 为了使更多人能够便捷地体验到由DeepSeek联合其他优秀项目共同带来的便利服务,《0基础玩转DeepSeek+RAGFlow本地部署+搭建知识库》系列文章采用通俗易懂的方式讲解了每一步骤的操作要点,即使是没有编程背景的朋友也可以按照指示顺利完成安装过程[^4]。 ```bash # 安装Ollama curl -fsSL https://ollama.com/install.sh | sh # 部署DeepSeek docker run -d -p 8080:8080 deepseek/search-engine # 配置RAGFlow git clone https://github.com/infiniflow/ragflow cd ragflow && docker-compose up -d ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值