DeepSeek + RAG 本地知识库搭建实战

问题1:在企业生产环境为什么不直接使用通用基础大模型?

不专业:模型自身的知识完全源于它的训练数据(网络公开数据),实时性的、非公开的或离线的数据是无法获取到的

乱回答:AI模型的底层原理基于数学概率,当自身不具备某一方面的知识或不擅长的场景时,会一本正经地胡说八道

不专业:需要将企业自身的私域数据上传第三方平台进行训练,会有数据泄露的风险

问题2:什么是RAG?

RAG 检索增强生成(Retrieval Augmented Generation),融合了检索与生成两类模型的优势,最初源于2020年Meta(Facebook)的一篇论文——《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。解决一个问题:如何让大语言模型使用外部数据进行生成

RAG是一种将大规模语言模型(LLM)与外部知识源的检索相结合,以改进问答能力的工程框架。

场景1:

大型语言模型(LLM)的训练依赖于网络上海量公开的静态数据,而某些特定领域(如企业内部资料、专有技术文档等)的数据通常不会作为公开的训练数据,导致模型在面对这些领域的查询时,可能因缺乏足够的信息而生成不准确甚至虚构的回复。

解决方案:

为了解决这一问题,RAG技术通过引入向量数据库(Vector Database)作为外部知识源,将模型缺失的知识以结构化的形式提供。

场景2:

随着 LLM 规模扩大,训练成本与周期相应增加。因此,包含最新信息的数据难以融入模型训练过程,无法及时反映最新的信息或动态变化。导致 LLM 在应对诸如“请推荐当前热门影片”等时间敏感性问题。

解决方案:提供联网搜索功能。

图片

举例:

LLM在考试的时候面对陌生的领域,答复能力有限,然后就准备放飞自我了,而此时RAG给了一些提示和思路,让LLM懂了开始往这个提示的方向做,最终考试的正确率从60%到了90%!

图片

问题3:哪些人需要搭建个人知识库?

小型企业主或创业者:查阅和分享文件、文档、客户反馈、市场分析,大大提升你的工作效率。

职场打工人或自由职业者:无论是写作、设计、开发,还是视频制作,知识库都可以管理大量的素材、创意和客户需求,通过知识库,你可以轻松存储和搜索这些资料,并通过大模型二次创作

教育工作者或学生:利用知识库管理教学资源、课程安排、教材资料等,学生则可以将课堂笔记、参考书目和作业整理在一起,随时复习和备考。

生活中的普通人:无论是旅行计划、兴趣爱好,还是学习笔记,全部都可以集中在知识库管理。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

往期精彩

面试提问:数仓设计不分层可以吗?

DeepSeek在医学领域的应用场景

DeepSeek大模型在政务服务领域的应用

从O(n²)到O(n):基于累计求和模型的线性递归模式优化与多场景实战

华中科技大学-从DeepSeek到Manus AI如何重塑企业价值【文末附下载链接】

基于增量滚动计算策略的数仓累计计算指标的优化实战

PPT下载链接:

https://download.csdn.net/download/godlovedaniel/90479553

### 使用 DeepSeekRAG 结合爬虫技术创建个人知识库 #### 构建数据采集模块 为了构建一个高效的个人知识库,首先需要建立可靠的数据源。通过使用爬虫技术可以从互联网上获取大量有价值的信息资源。对于特定领域的需求,可以定制化开发专门用于抓取目标网站内容的网络爬虫程序。 ```python import requests from bs4 import BeautifulSoup def fetch_webpage(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return soup.prettify() ``` 此部分工作可借鉴已有课程中的实践经验[^1],确保所收集到的数据既合法又具有实用性。 #### 数据预处理与清洗 获得原始网页资料之后,需对其进行必要的清理操作以去除无关标签、广告等内容,并提取出真正有用的文字描述或其他形式的知识条目。这一过程同样依赖于Python编程技巧及其第三方库的支持。 ```python def clean_data(raw_html): cleaned_text = raw_html.replace('\n', '').strip() # 去除多余空白符 unwanted_tags = ['script', 'style'] # 定义不需要保留下来的HTML标签列表 for tag in unwanted_tags: [s.extract() for s in raw_html('tag')] # 移除指定类型的HTML标签 return cleaned_text ``` #### 整合DeepSeek大模型实践 当准备好足够的高质量语料后,则可以通过调用像DeepSeek这样的大型语言模型来进行进一步加工处理。借助其强大的自然语言理解能力,能够自动识别并分类不同主题下的知识点;同时还能辅助完成诸如摘要生成之类的任务,从而提高整个系统的智能化水平。 #### 应用RAG框架优化查询效率 最后,在实际应用过程中引入基于检索增强生成(Retrieval-Augmented Generation,RAG)机制的设计思路。该方法允许系统在接受用户提问的同时即时访问预先存储好的外部数据库或索引文件,从中挑选最贴切的答案候选集供最终合成参考之用。如此一来不仅提升了回复质量还有效减少了因内部参数调整不当而引发的各种错误情况的发生几率。 ```python class KnowledgeBaseSearcher: def __init__(self, db_path): self.db_connection = sqlite3.connect(db_path) def search(self, query_string): cursor = self.db_connection.cursor() sql_query = "SELECT * FROM knowledge_entries WHERE content LIKE ?" results = cursor.execute(sql_query, ('%' + query_string + '%',)).fetchall() return results ``` 上述流程展示了如何综合利用多种先进技术手段搭建起一套完整的个性化学习平台解决方案[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值