【AI大模型】别搞 GraphRAG 了，拥抱新一代 RAG 范式 DeepSearcher-CSDN博客

本文链接：https://blog.csdn.net/2401_85327249/article/details/147605377

前言

MCP构建AI大模型全景技术架构体系

刚刚在朋友圈兴奋庆祝《哪吒2》荣登全球 IMAX 票房历史前五，喜悦之情还未平复；

午后，老板便发话：“小王，你这么有见解，用 DeepSeek R1 做个《上古神话中龙族形象在流行文化中的变迁》分析吧，下班前交给我……”

别忘了，还得融合孙悟空和哪吒的魅力点，借鉴《山海经》到《哪吒》的成功策略，结合古典文学理论与现代精神分析，打造出我们独有的用户体验（此处省略800字）

老板的要求如同烟花般绚烂

然而，在时间转换器从哈利波特的世界变为现实之前，我们这些打工族的办公时间依然是有限的。

采用传统的 RAG 方法应付差事？它只能帮你解决信息检索的问题

尝试 GraphRAG？老板还期望能结合知识图谱与大模型生成的新高度

不得不说，近期 Open AI 推出的 Deep Research（深度研究）功能，确实能在短时间内满足老板的高要求。

通过融合大模型、超级搜索与研究助手于一体的 Deep Research，

能够帮助金融机构快速生成报告，科研人员快速撰写综述。该服务一经推出，便在全球范围内广受欢迎。

但 Deep Research 的底层模型绑定在 OpenAI 上，且无法利用本地数据。

这项工作看似闭环，实则仍有缺口。

基于这一理念，向量数据库公司 Zilliz 推出了开源项目 DeepSearcher，目前在Github上已获得超过 5K+ star 的关注。

DeepSearcher 不仅继承了 Deep Research 的优点，用户还可以自由选择底层大模型，并通过Milvus接入本地数据，更适合企业级应用场景。

体验链接：https://github.com/zilliztech/deep-searcher

本文将围绕 DeepSearcher 的技术分析、与传统 RAG 的对比，以及实际操作展示三个方面，为大家带来深入解读。

1、RAG 技术演进:从基础到增强

第一、我们为何需要 RAG？

RAG（检索增强生成）技术，通过融合实时搜索与大模型的能力，有效解决了传统生成技术的以下难题：

(1) 知识更新的时效性问题

大型模型如 GPT-4 的训练数据有时间限制（仅更新至2023年），而 RAG 能够实时检索最新文档（如科研论文或新闻），从而动态扩展模型的知识库。

(2) 事实准确性的挑战

纯生成模型容易产生错误信息（即“幻觉”），RAG 则先进行相关证据文档的检索，确保模型基于检索结果生成内容，大幅降低错误率。

(3) 领域适配的成本问题

传统的微调（Fine-tuning）需要大量标注数据和计算资源，而 RAG 只需构建领域文档库，就能让通用模型生成专业领域的内容（如法律、医疗）。

第二、传统 RAG、Graph RAG、DeepSearcher 的区别解析

设想你在图书馆查找资料的情景：

传统 RAG - 类似于图书馆找书

就像在图书馆根据书名和简介找书一样，传统 RAG 会将文档内容“向量化”，为每段文字打上特征标签。当你提问时，它就像图书管理员，根据标签快速匹配相关内容。例如，询问“哪吒的性格特点”，它会找到描述哪吒性格的段落。其优点是直接明了，但可能遗漏深层次的关联信息。

GraphRAG - 类似于查阅族谱

GraphRAG 更像是探索一个互动式的族谱，将人物、事件、关系构建成一张大网。每个人物是一个节点，关系则是连线。询问“哪吒和敖丙的关系”，它能通过关系网络找到答案，并揭示意想不到的关联，如他们的共同朋友或敌人。

DeepSearcher - 类似于 RPG 游戏的角色面板

DeepSearcher 像是 RPG 游戏中的人物属性面板，将信息分层组织，如主线任务和支线任务。询问“哪吒在剧中的重要关系”，它会先展示核心关系，然后逐层深入到具体情节和细节，使得信息层次清晰，易于理解。

第三、RAG 技术架构对比

（1）传统 RAG 架构

（2）GraphRAG 架构

（3）DeepSearcher 架构

第四、RAG 数据组织方式对比

RAG：采用扁平化的向量空间，使信息关系直观可见。

GraphRAG：利用图结构存储，适合表示复杂且相互关联的数据。

DeepSearcher：通过树形层次结构组织数据，便于像浏览文件夹一样高效查找信息。

第五、RAG 检索机制对比

RAG（检索增强生成）：通过比较文本向量相似度来检索相关信息。

GraphRAG：结合图结构的数据遍历和路径查询，精确定位信息。

DeepSearcher：采用多层次并行搜索加智能过滤，从大量数据中快速准确提取所需信息。

第六、RAG 结果生成对比

RAG：直接基于相关文本内容生成答案。

GraphRAG：利用子图中的结构化信息生成答案。

DeepSearcher：结合多层信息，深入挖掘信息及其关系，生成全面准确的答案。希望这样的改写能帮助大家更好地理解这些检索机制的特点。

2、三种 RAG 设计模式试验效果

第一、经典 RAG 实施流程

（1）搭建技术框架

（2）操作步骤

在 Dify 平台上配置 deepseek-r1 模型。

构建《哪吒2》的专题知识库。

设立聊天助手，将其与知识库和模型关联。

进行问答测试，以观察实际效果。

（3）测试数据集

哪吒，一位天生的叛逆少年英雄，掌握雷电之力，隶属于阐教。

他的父亲是李靖（陈塘关总兵），母亲是殷夫人。

他的导师是太乙真人，同为阐教门下。

敖丙，东海龙王的三太子，拥有冰雪之力，属于龙族。

（4）测试问答示例

哪吒的父母是谁？

（5）问答效果展示

第二、GraphRAG 的实施流程

（1）技术栈准备

（2）实施步骤

利用 DeepSeek 生成测试数据集。

安装 NebulaGraph 并导入测试数据。

在 Dify 平台上创建工作流应用。

配置 Nebula API 调用等参数。

编排工作流节点。

进行测试，验证问答效果。

（3）在 Nebula 中插入数据的步骤

创建图空间：

CREATE SPACE IF NOT EXISTS nezha2(partition_num=1, replica_factor=1, vid_type=fixed_string(128));

（4）使用图空间

USE nezha2;

（5）创建角色标签

CREATE TAG role (    name string,           // 角色名    meteorological string, // 气象属性    faction string,        // 所属阵营    role_desc string,      // 角色描述    voice_actor string     // 配音演员);

（6）创建各种关系边

CREATE EDGE father_of (edge_time timestamp);    // 父子关系CREATE EDGE mother_of (edge_time timestamp);    // 母子关系CREATE EDGE teacher_of (edge_time timestamp);   // 师徒关系CREATE EDGE enemy_of (edge_time timestamp);     // 敌对关系CREATE EDGE friend_of (edge_time timestamp);    // 朋友关系CREATE EDGE lover_of (edge_time timestamp);     // 恋人关系CREATE EDGE brother_sister_of (edge_time timestamp); // 兄妹关系

（7）插入角色节点

INSERT VERTEX role (name, meteorological, faction, role_desc, voice_actor) VALUES "哪吒": ("哪吒", "雷电", "阐教", "天生反骨的少年英雄", "吕艳婷"),"敖丙": ("敖丙", "冰雪", "龙族", "东海三太子,哪吒的挚友", "瀚墨"),// ... 其他角色;

（8）插入各种关系

// 家庭关系INSERT EDGE father_of VALUES "李靖" -> "哪吒": (NOW());INSERT EDGE mother_of VALUES "殷夫人" -> "哪吒": (NOW());// ... 其他关系

（9）测试效果

使用 NebulaGraph Studio 进行测试。

测试语句示例：

// （查询哪吒相关的所有关系）MATCH (v1:role)-[e]->(v2:role) RETURN e LIMIT 10;

// 多跳关系查询

MATCH p=()-[*1..2]->()RETURN p LIMIT 5;

第三、DeepSearcher 的实施与演示

DeepSearcher 的核心优势在于其分层语义理解能力（涉及文档结构、段落、句子、关键词的多级解析），而 Dify 平台的父子检索功能则是对索引结构进行了优化（通过将文档拆分为父子块来建立层级索引）。

本次演示将重点展示如何利用父子检索功能来实现 DeepSearcher 的层级索引特性。

（1）技术栈准备

（2）实施步骤

准备分层的知识文档。

配置父子检索参数。

在对话系统中选择 DeepSeek-R1模型。

使用 LLM 处理检索结果。

进行测试，验证问答效果。

（3）测试数据集

# 角色基本信息## 哪吒- 名称: 哪吒- 属性: 雷电- 阵营: 阐教- 描述: 天生反骨的少年英雄,拥有超凡的力量和勇气- 配音: 吕艳婷- 性格特点: 叛逆不羁,重情重义,敢于挑战命运### 哪吒的关系网络- 父亲: 李靖(陈塘关总兵,严厉正直)- 母亲: 殷夫人(温柔慈爱,理解包容)- 师父: 太乙真人(循循善诱,关爱弟子)- 挚友: 敖丙(东海三太子,冰雪之力)- 敌人: 申公豹(截教弟子,处处作梗)### 哪吒的剧情发展- 初遇敖丙: 在东海边缘的相遇,两个不同世界的少年- 修行历程: 在太乙真人门下学习法术,逐渐掌握雷电之力- 友情萌芽: 与敖丙从互不理解到成为挚友- 身份困扰: 面对阐教弟子和凡人双重身份的矛盾- 成长蜕变: 在各种挑战中突破自我,寻找真我### 哪吒的能力特点- 主要法术: 雷电操控,混天绫,乾坤圈- 战斗风格: 灵活多变,攻击凌厉- 特殊天赋: 天生具有超凡力量- 成长轨迹: 从初学者到掌握强大法力## 敖丙- 名称: 敖丙- 属性: 冰雪- 阵营: 龙族- 描述: 东海三太子,温润如玉的贵族少年- 配音: 瀚墨- 性格特点: 温和有礼,重情重义,内心坚韧### 敖丙的关系网络- 父亲: 敖光(东海龙王,威严庄重)- 兄弟姐妹:   - 敖闰(龙女,擅长空间法术)  - 敖顺(二皇子,精通毒术)  - 敖钦(大皇子,掌控火焰)- 挚友: 哪吒(阐教弟子,雷电之力)- 属下: 结界兽(守护东海结界)### 敖丙的剧情发展- 身份困扰: 作为龙族继承人的责任与压力- 友情抉择: 在族群立场与个人情谊间的挣扎- 能力觉醒: 冰雪之力的不断提升与掌控- 性格成长: 从谨慎拘谨到开朗自信- 守护之道: 保护东海与亲友的决心### 敖丙的能力特点- 主要法术: 冰雪操控,水系法术- 战斗风格: 优雅从容,防守反击- 特殊天赋: 天生亲和水元素- 成长轨迹: 从单纯的王子到独当一面## 太乙真人- 名称: 太乙真人- 属性: 云雾- 阵营: 阐教- 描述: 阐教重要弟子,哪吒的师父- 配音: 张珈铭- 性格特点: 智慧通达,慈悲为怀### 太乙真人的关系网络- 弟子: 哪吒(得意门生)- 同门: 其他阐教仙人- 对手: 申公豹(截教弟子)### 太乙真人的剧情参与- 收徒教导: 发现哪吒天赋,悉心培养- 化解危机: 多次调解哪吒与各方矛盾- 守护正道: 对抗截教势力的渗透# 阵营势力分析## 阐教- 代表人物: 太乙真人、哪吒- 特点: 崇尚正统,重视秩序- 立场: 维护天地秩序,抵制混乱- 修行特色: 注重心性修养,讲究循序渐进### 阐教的理念- 修行观: 重视内在修养- 处世态度: 主动干预,匡扶正义- 对待人间: 既重视规则,也关注个体## 龙族- 代表人物: 敖光、敖丙- 特点: 高贵优雅,重视传统- 立场: 守护东海,维护龙族利益- 统治方式: 等级分明,讲究礼制### 龙族的传统- 治理理念: 重视血脉传承- 对外态度: 谨慎自守,避免冲突- 内部规则: 等级森严,重视礼法## 截教- 代表人物: 申公豹- 特点: 包容驳杂,手段灵活- 立场: 追求变革,不拘一格- 行事风格: 灵活多变,善用权谋### 截教的特点- 修行方式: 讲究实用- 处世态度: 积极进取,不拘形式- 发展策略: 广收门徒,扩张势力# 重要事件与剧情发展## 东海危机### 事件起因- 结界异常- 势力冲突- 个人恩怨### 事件发展- 哪吒与敖丙的相遇- 各方势力的介入- 矛盾的激化与升级### 事件影响- 个人成长- 势力变化- 关系转变## 人物关系演变### 友情的考验- 立场差异- 信任建立- 共同成长### 师徒情谊- 教导方式- 互相理解- 成长蜕变

（4）新建知识库并开启父子模式

（5）测试效果

测试单层信息获取

"哪吒的基本属性是什么?"

测试关系信息理解

"哪吒和敖丙是什么关系?他们的性格有什么不同?"

测试跨层级推理

"阐教和龙族的矛盾体现在哪些方面?对哪吒和敖丙的友情有什么影响?"

3、不同 RAG 模式维度对比

4、写在最后

第一、DeepSearcher 的创新理念

DeepSearcher 的领先之处在于它打破了传统搜索的检索与生成分离模式，深度融合了深度学习技术，全面优化了搜索流程。其主要优势体现在：

智能检索：利用语言模型参与搜索过程，如生成潜在查询或对结果进行排序，从而提高搜索的相关性。例如，对于“如何挑选适合我的手机？”这样的问题，DeepSearcher 能够根据用户的历史数据生成更为精确的搜索条件。

高度适应性：通过反馈机制（如强化学习）对搜索进行优化，根据用户行为持续调整。若用户对搜索结果不满，系统将学习并改进搜索策略。多模态兼容性：支持文本、图像、视频等多元化数据类型，满足现代应用的多样化需求，例如搜索“红色跑车的图片及相关新闻”。

个性化搜索：深度学习模型能够根据用户的个人喜好定制搜索结果，相较于 RAG 和 GraphRAG 的固定检索方式更加灵活。值得注意的是，DeepSearcher 的搜索过程更接近人类思维，能够理解上下文和用户意图，但这同时也带来了效率和可解释性方面的挑战。

第二、实施 DeepSearcher 需要克服的挑战

集成难度：要将语言模型与搜索索引紧密融合，需要构建高效的系统架构。例如，如何在保持性能的同时，有效地将语言模型融入检索过程？

实时数据更新：在处理实时数据更新（如股市动态）时，确保模型能够及时适应，技术实现上存在一定难度。系统复杂性：DeepSearcher 可能包含多个组件（如检索、生成、学习模块），这增加了系统的维护和故障排查难度。

RAG 和 GraphRAG 作为成熟的搜索范式，分别适用于文档检索和关系查询，而 DeepSearcher 则代表了搜索技术的未来趋势，通过深度学习提升搜索效率，满足复杂和个性化的搜索需求。尽管其潜力巨大，但如何提高效率、确保可解释性以及满足数据需求仍是待解的问题。在实现过程中，需要特别关注集成的复杂性和实时性，以确保系统在实际应用中的稳定表现。