【AI大模型】别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher

前言

MCP构建AI大模型全景技术架构体系

刚刚在朋友圈兴奋庆祝《哪吒2》荣登全球 IMAX 票房历史前五,喜悦之情还未平复;

图片

午后,老板便发话:“小王,你这么有见解,用 DeepSeek R1 做个《上古神话中龙族形象在流行文化中的变迁》分析吧,下班前交给我……”

别忘了,还得融合孙悟空和哪吒的魅力点,借鉴《山海经》到《哪吒》的成功策略,结合古典文学理论与现代精神分析,打造出我们独有的用户体验(此处省略800字)

老板的要求如同烟花般绚烂

然而,在时间转换器从哈利波特的世界变为现实之前,我们这些打工族的办公时间依然是有限的。

采用传统的 RAG 方法应付差事?它只能帮你解决信息检索的问题

尝试 GraphRAG?老板还期望能结合知识图谱与大模型生成的新高度

不得不说,近期 Open AI 推出的 Deep Research(深度研究)功能,确实能在短时间内满足老板的高要求。

通过融合大模型、超级搜索与研究助手于一体的 Deep Research

能够帮助金融机构快速生成报告,科研人员快速撰写综述。该服务一经推出,便在全球范围内广受欢迎。

但 Deep Research 的底层模型绑定在 OpenAI 上,且无法利用本地数据。

这项工作看似闭环,实则仍有缺口。

基于这一理念,向量数据库公司 Zilliz 推出了开源项目 DeepSearcher,目前在Github上已获得超过 5K+ star 的关注

DeepSearcher 不仅继承了 Deep Research 的优点,用户还可以自由选择底层大模型,并通过Milvus接入本地数据,更适合企业级应用场景。

体验链接:https://github.com/zilliztech/deep-searcher

本文将围绕 DeepSearcher 的技术分析、与传统 RAG 的对比,以及实际操作展示三个方面,为大家带来深入解读。

1、RAG 技术演进:从基础到增强

第一、我们为何需要 RAG?

RAG(检索增强生成)技术,通过融合实时搜索与大模型的能力,有效解决了传统生成技术的以下难题:

(1) 知识更新的时效性问题

大型模型如 GPT-4 的训练数据有时间限制(仅更新至2023年),而 RAG 能够实时检索最新文档(如科研论文或新闻),从而动态扩展模型的知识库。

(2) 事实准确性的挑战

纯生成模型容易产生错误信息(即“幻觉”),RAG 则先进行相关证据文档的检索,确保模型基于检索结果生成内容,大幅降低错误率。

(3) 领域适配的成本问题

传统的微调(Fine-tuning)需要大量标注数据和计算资源,而 RAG 只需构建领域文档库,就能让通用模型生成专业领域的内容(如法律、医疗)。

第二、传统 RAG、Graph RAG、DeepSearcher 的区别解析

设想你在图书馆查找资料的情景:

传统 RAG - 类似于图书馆找书

就像在图书馆根据书名和简介找书一样,传统 RAG 会将文档内容“向量化”,为每段文字打上特征标签。当你提问时,它就像图书管理员,根据标签快速匹配相关内容。例如,询问“哪吒的性格特点”,它会找到描述哪吒性格的段落。其优点是直接明了,但可能遗漏深层次的关联信息。

GraphRAG - 类似于查阅族谱

GraphRAG 更像是探索一个互动式的族谱,将人物、事件、关系构建成一张大网。每个人物是一个节点,关系则是连线。询问“哪吒和敖丙的关系”,它能通过关系网络找到答案,并揭示意想不到的关联,如他们的共同朋友或敌人。

DeepSearcher - 类似于 RPG 游戏的角色面板

DeepSearcher 像是 RPG 游戏中的人物属性面板,将信息分层组织,如主线任务和支线任务。询问“哪吒在剧中的重要关系”,它会先展示核心关系,然后逐层深入到具体情节和细节,使得信息层次清晰,易于理解。

图片

第三、RAG 技术架构对比

(1)传统 RAG 架构

图片

(2)GraphRAG 架构

图片

(3)DeepSearcher 架构

图片

第四、RAG 数据组织方式对比

RAG:采用扁平化的向量空间,使信息关系直观可见。

GraphRAG:利用图结构存储,适合表示复杂且相互关联的数据。

DeepSearcher:通过树形层次结构组织数据,便于像浏览文件夹一样高效查找信息。

第五、RAG 检索机制对比

RAG(检索增强生成):通过比较文本向量相似度来检索相关信息。

GraphRAG:结合图结构的数据遍历和路径查询,精确定位信息。

DeepSearcher:采用多层次并行搜索加智能过滤,从大量数据中快速准确提取所需信息。

第六、RAG 结果生成对比

RAG:直接基于相关文本内容生成答案。

GraphRAG:利用子图中的结构化信息生成答案。

DeepSearcher:结合多层信息,深入挖掘信息及其关系,生成全面准确的答案。希望这样的改写能帮助大家更好地理解这些检索机制的特点。

2、三种 RAG 设计模式试验效果

第一、经典 RAG 实施流程

(1)搭建技术框架

图片

(2)操作步骤

在 Dify 平台上配置 deepseek-r1 模型。

构建《哪吒2》的专题知识库。

设立聊天助手,将其与知识库和模型关联。

进行问答测试,以观察实际效果。

(3)测试数据集

哪吒,一位天生的叛逆少年英雄,掌握雷电之力,隶属于阐教。

他的父亲是李靖(陈塘关总兵),母亲是殷夫人。

他的导师是太乙真人,同为阐教门下。

敖丙,东海龙王的三太子,拥有冰雪之力,属于龙族。

(4)测试问答示例

哪吒的父母是谁?

(5)问答效果展示

图片

第二、GraphRAG 的实施流程

(1)技术栈准备

图片

(2)实施步骤

利用 DeepSeek 生成测试数据集。

安装 NebulaGraph 并导入测试数据。

在 Dify 平台上创建工作流应用。

配置 Nebula API 调用等参数。

编排工作流节点。

进行测试,验证问答效果。

(3)在 Nebula 中插入数据的步骤

创建图空间:

CREATE SPACE IF NOT EXISTS nezha2(partition_num=1, replica_factor=1, vid_type=fixed_string(128));

(4)使用图空间

USE nezha2;

(5)创建角色标签

CREATE TAG role (    name string,           // 角色名    meteorological string, // 气象属性    faction string,        // 所属阵营    role_desc string,      // 角色描述    voice_actor string     // 配音演员);

(6)创建各种关系边

CREATE EDGE father_of (edge_time timestamp);    // 父子关系CREATE EDGE mother_of (edge_time timestamp);    // 母子关系CREATE EDGE teacher_of (edge_time timestamp);   // 师徒关系CREATE EDGE enemy_of (edge_time timestamp);     // 敌对关系CREATE EDGE friend_of (edge_time timestamp);    // 朋友关系CREATE EDGE lover_of (edge_time timestamp);     // 恋人关系CREATE EDGE brother_sister_of (edge_time timestamp); // 兄妹关系

(7)插入角色节点

INSERT VERTEX role (name, meteorological, faction, role_desc, voice_actor) VALUES "哪吒": ("哪吒", "雷电", "阐教", "天生反骨的少年英雄", "吕艳婷"),"敖丙": ("敖丙", "冰雪", "龙族", "东海三太子,哪吒的挚友", "瀚墨"),// ... 其他角色;

(8)插入各种关系

// 家庭关系INSERT EDGE father_of VALUES "李靖" -> "哪吒": (NOW());INSERT EDGE mother_of VALUES "殷夫人" -> "哪吒": (NOW());// ... 其他关系

(9)测试效果

使用 NebulaGraph Studio 进行测试。

测试语句示例:

// (查询哪吒相关的所有关系)MATCH (v1:role)-[e]->(v2:role) RETURN e LIMIT 10;

图片

// 多跳关系查询

MATCH p=()-[*1..2]->()RETURN p LIMIT 5;

图片

第三、DeepSearcher 的实施与演示

DeepSearcher 的核心优势在于其分层语义理解能力(涉及文档结构、段落、句子、关键词的多级解析),而 Dify 平台的父子检索功能则是对索引结构进行了优化(通过将文档拆分为父子块来建立层级索引)。

本次演示将重点展示如何利用父子检索功能来实现 DeepSearcher 的层级索引特性。

(1)技术栈准备

图片

(2)实施步骤

准备分层的知识文档。

配置父子检索参数。

在对话系统中选择 DeepSeek-R1模型。

使用 LLM 处理检索结果。

进行测试,验证问答效果。

(3)测试数据集

# 角色基本信息## 哪吒- 名称: 哪吒- 属性: 雷电- 阵营: 阐教- 描述: 天生反骨的少年英雄,拥有超凡的力量和勇气- 配音: 吕艳婷- 性格特点: 叛逆不羁,重情重义,敢于挑战命运### 哪吒的关系网络- 父亲: 李靖(陈塘关总兵,严厉正直)- 母亲: 殷夫人(温柔慈爱,理解包容)- 师父: 太乙真人(循循善诱,关爱弟子)- 挚友: 敖丙(东海三太子,冰雪之力)- 敌人: 申公豹(截教弟子,处处作梗)### 哪吒的剧情发展- 初遇敖丙: 在东海边缘的相遇,两个不同世界的少年- 修行历程: 在太乙真人门下学习法术,逐渐掌握雷电之力- 友情萌芽: 与敖丙从互不理解到成为挚友- 身份困扰: 面对阐教弟子和凡人双重身份的矛盾- 成长蜕变: 在各种挑战中突破自我,寻找真我### 哪吒的能力特点- 主要法术: 雷电操控,混天绫,乾坤圈- 战斗风格: 灵活多变,攻击凌厉- 特殊天赋: 天生具有超凡力量- 成长轨迹: 从初学者到掌握强大法力## 敖丙- 名称: 敖丙- 属性: 冰雪- 阵营: 龙族- 描述: 东海三太子,温润如玉的贵族少年- 配音: 瀚墨- 性格特点: 温和有礼,重情重义,内心坚韧### 敖丙的关系网络- 父亲: 敖光(东海龙王,威严庄重)- 兄弟姐妹:   - 敖闰(龙女,擅长空间法术)  - 敖顺(二皇子,精通毒术)  - 敖钦(大皇子,掌控火焰)- 挚友: 哪吒(阐教弟子,雷电之力)- 属下: 结界兽(守护东海结界)### 敖丙的剧情发展- 身份困扰: 作为龙族继承人的责任与压力- 友情抉择: 在族群立场与个人情谊间的挣扎- 能力觉醒: 冰雪之力的不断提升与掌控- 性格成长: 从谨慎拘谨到开朗自信- 守护之道: 保护东海与亲友的决心### 敖丙的能力特点- 主要法术: 冰雪操控,水系法术- 战斗风格: 优雅从容,防守反击- 特殊天赋: 天生亲和水元素- 成长轨迹: 从单纯的王子到独当一面## 太乙真人- 名称: 太乙真人- 属性: 云雾- 阵营: 阐教- 描述: 阐教重要弟子,哪吒的师父- 配音: 张珈铭- 性格特点: 智慧通达,慈悲为怀### 太乙真人的关系网络- 弟子: 哪吒(得意门生)- 同门: 其他阐教仙人- 对手: 申公豹(截教弟子)### 太乙真人的剧情参与- 收徒教导: 发现哪吒天赋,悉心培养- 化解危机: 多次调解哪吒与各方矛盾- 守护正道: 对抗截教势力的渗透# 阵营势力分析## 阐教- 代表人物: 太乙真人、哪吒- 特点: 崇尚正统,重视秩序- 立场: 维护天地秩序,抵制混乱- 修行特色: 注重心性修养,讲究循序渐进### 阐教的理念- 修行观: 重视内在修养- 处世态度: 主动干预,匡扶正义- 对待人间: 既重视规则,也关注个体## 龙族- 代表人物: 敖光、敖丙- 特点: 高贵优雅,重视传统- 立场: 守护东海,维护龙族利益- 统治方式: 等级分明,讲究礼制### 龙族的传统- 治理理念: 重视血脉传承- 对外态度: 谨慎自守,避免冲突- 内部规则: 等级森严,重视礼法## 截教- 代表人物: 申公豹- 特点: 包容驳杂,手段灵活- 立场: 追求变革,不拘一格- 行事风格: 灵活多变,善用权谋### 截教的特点- 修行方式: 讲究实用- 处世态度: 积极进取,不拘形式- 发展策略: 广收门徒,扩张势力# 重要事件与剧情发展## 东海危机### 事件起因- 结界异常- 势力冲突- 个人恩怨### 事件发展- 哪吒与敖丙的相遇- 各方势力的介入- 矛盾的激化与升级### 事件影响- 个人成长- 势力变化- 关系转变## 人物关系演变### 友情的考验- 立场差异- 信任建立- 共同成长### 师徒情谊- 教导方式- 互相理解- 成长蜕变

(4)新建知识库并开启父子模式

图片

(5)测试效果

测试单层信息获取

"哪吒的基本属性是什么?"

图片

测试关系信息理解

"哪吒和敖丙是什么关系?他们的性格有什么不同?"

图片

测试跨层级推理

"阐教和龙族的矛盾体现在哪些方面?对哪吒和敖丙的友情有什么影响?"

图片

3、不同 RAG 模式维度对比

图片

4、写在最后

第一、DeepSearcher 的创新理念

DeepSearcher 的领先之处在于它打破了传统搜索的检索与生成分离模式,深度融合了深度学习技术,全面优化了搜索流程。其主要优势体现在:

智能检索:利用语言模型参与搜索过程,如生成潜在查询或对结果进行排序,从而提高搜索的相关性。例如,对于“如何挑选适合我的手机?”这样的问题,DeepSearcher 能够根据用户的历史数据生成更为精确的搜索条件。

高度适应性:通过反馈机制(如强化学习)对搜索进行优化,根据用户行为持续调整。若用户对搜索结果不满,系统将学习并改进搜索策略。多模态兼容性:支持文本、图像、视频等多元化数据类型,满足现代应用的多样化需求,例如搜索“红色跑车的图片及相关新闻”。

个性化搜索:深度学习模型能够根据用户的个人喜好定制搜索结果,相较于 RAG 和 GraphRAG 的固定检索方式更加灵活。值得注意的是,DeepSearcher 的搜索过程更接近人类思维,能够理解上下文和用户意图,但这同时也带来了效率和可解释性方面的挑战。

第二、实施 DeepSearcher 需要克服的挑战

集成难度:要将语言模型与搜索索引紧密融合,需要构建高效的系统架构。例如,如何在保持性能的同时,有效地将语言模型融入检索过程?

实时数据更新:在处理实时数据更新(如股市动态)时,确保模型能够及时适应,技术实现上存在一定难度。系统复杂性:DeepSearcher 可能包含多个组件(如检索、生成、学习模块),这增加了系统的维护和故障排查难度。

RAG 和 GraphRAG 作为成熟的搜索范式,分别适用于文档检索和关系查询,而 DeepSearcher 则代表了搜索技术的未来趋势,通过深度学习提升搜索效率,满足复杂和个性化的搜索需求。尽管其潜力巨大,但如何提高效率、确保可解释性以及满足数据需求仍是待解的问题。在实现过程中,需要特别关注集成的复杂性和实时性,以确保系统在实际应用中的稳定表现。

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值