DeepSearcher 开源：告别传统 RAG，私有数据+DeepSeek，打造本地版 Deep Research

最新推荐文章于 2025-04-13 01:12:20 发布

程序猿李巡天

最新推荐文章于 2025-04-13 01:12:20 发布

阅读量1.2k

点赞数 24

文章标签：数据库人工智能 microsoft 数据分析数据挖掘

本文链接：https://blog.csdn.net/m0_59235945/article/details/146051985

版权

这个春节，DeepSeek 实在太火爆了。

近期，Open AI 推出的 Deep Research（深度研究）功能引发了广泛关注。该功能通过整合大模型、超级搜索和研究助理于一体，使得金融机构能够一键生成报告，科研人员能够一键撰写综述，极大提升了效率。然而，由于企业场景中私有化数据的敏感性和成本考虑，如何将 Deep Research 进行开源的本地化部署，成为许多人的关注焦点。

在这篇文章中，我们将对市场上模仿 Deep Research 的开源项目进行简要分析，并结合 Deepseek 等主流开源模型，Zilliz 推出一款名为 Deep Searcher 的开源项目。该项目的目标是帮助用户在企业级场景下，基于 Deep Research的思路，实现私有化部署。此外，此方案在现有的RAG（Retrieval-Augmented Generation）方案上进行了重要升级。

GitHub 的尝鲜链接：

https://github.com/zilliztech/deep-searcher

1.什么是 Deep Research，为什么需要开源平替？

最近，OpenAI 推出了一款先进的 AI 研究工具——Deep Research，目的是为了帮助用户更高效地处理复杂的研究工作。这款工具基于 OpenAI 最新的 o3 大模型，特别针对网络浏览和数据分析进行了优化。

第一、核心功能包括：

多阶段信息搜集与推理：Deep Research 能够自动执行多阶段的网络调研，迅速整合网络上的大量信息，涵盖文本、图片和 PDF 文件。

专业报告自动生成：通过分析综合数百个在线资源，Deep Research 可以在5至30分钟内生成一份包含详细引用的专业报告，显著减少传统研究所需的时间。

第二、应用场景涵盖：

学术研究：学者和研究人员可以利用 Deep Research 快速搜集相关领域的深入资料，辅助撰写论文和进行研究。

市场分析：企业可以使用此工具进行市场调研、竞争分析和产品比较，为商业决策提供支持。

产品评估：消费者可以利用 Deep Research 比较不同产品的特点和评价，做出更明智的购买选择。

总体而言，Deep Research 作为 OpenAI 推出的深度研究产品，旨在通过自动化的信息搜集和分析，助力用户高效完成复杂的研究任务。但目前，Deep Research 仅对美国地区的 OpenAI Pro 用户开放，费用为每月200美元，且每月查询次数限制为100次。

第三、开源解决方案：

目前，大多数用户尚无法使用 OpenAI 的 Deep Research 功能。不过，自从 OpenAI 发布该功能后，许多开源社区的贡献者开始分析并尝试复现这一功能。

GitHub 上已经出现了多个开源方案，它们的实现流程大致分为以下四个步骤：

第一步，问题分析：大模型分析用户提出的问题，确定回答问题所需的角度和步骤。许多大型模型（比如：DeepSeek、ChatGPT、Gemini 等）只需开启推理选项即可完成这一过程。

第二步，在线搜索：根据大模型生成的问题进行在线搜索，获取搜索结果的前 k 项，并将内容反馈给大模型。

第三步，内容总结：大模型根据在线内容生成简洁的答案。

第四步，答案验证：将所有内容汇总后，由大模型判断答案的完整性和准确性。

如果答案完整且准确，则输出最终答案。如果达到预设的循环次数或 token 上限，同样输出最终答案。否则，生成新问题，返回第一步，并将历史解决信息带入下一轮循环。

2.相比传统 RAG，Deep Research 有何亮点与不足

相较于之前的 RAG（Retrieval-Augmented Generation）方案，新方案实现了以下三个方面的创新：

第一、判定逻辑：通过引入额外的判定逻辑，提升了答案的精确度。Deep Research 利用多源验证、逻辑推理等质量控制手段，确保了研究成果的可靠性，并有效避免了传统 RAG 中常见的无目的检索和过度检索问题。与传统的 RAG 相比，Deep Research 在信息整合和验证方面更为严谨。

第二、以搜索结果为核心：答案主要基于搜索结果而非单纯依赖大模型的生成。大模型的作用在于内容汇总和相关性判断，从而增强了答案的可靠性。

第三、深度思考与处理复杂任务：Deep Research 能够模仿人类研究员进行多阶段的网络研究，理解信息、整合资源，并根据新发现调整研究策略。这种自主进行多步骤问题解决的能力，是普通 RAG 所不具备的。

虽然这些优势显著，但 Deep Research 也存在一些不足。从前面提供的方案中可以看出，Deep Research 的响应速度较慢，对计算资源和网络环境的要求也更高。更重要的是，其答案的主要信息来源依然是公开的网络搜索结果。

然而，在大多数企业场景中，真正有价值的数据通常是企业的内部数据，这些数据无法通过在线搜索获取，也不适合上传至大模型以避免隐私泄露的风险。此外，在线搜索引擎的结果可能包含误导性信息（比如：广告），且一些小众搜索引擎可能存在搜索延迟。

鉴于此，在多数企业级应用场景中，采用基于 Deep Research 思路的私有化部署可能是一个更佳的选择。

接下来，我们将以 Deep Searcher 为例，展示如何结合开源项目和本地数据，实现一个升级版的 Deep Research本地部署。

3.如何针对私有数据，做 Deep Research

以下是基于多数开源 Deep Research 方案改进后，Zilliz 推出的 Deep Searcher 开源实现方案的架构图：

从图中可以看出，Deep Searcher 通过集成向量数据库 Milvus，实现了对用户本地存储数据的快速、低延迟的大规模离线搜索。

Deep Searcher 的实现步骤如下：

第一步，问题解析：在接收到用户提问后，利用 LLM（Large Language Model）对问题进行分析，生成多个子问题，并明确每个子问题对应的数据集。

第二步，信息检索：根据 LLM 的分析结果，在向量数据库中检索相关信息。需要注意的是，向量数据库中的数据是离线存储的，因此在执行查询之前，需要先将数据导入数据库。这些数据可以是企业内部数据、在线下载的数据，或者是其他系统中定期导入的数据。

第三步，内容判断：向量数据库检索到相似信息后，将用户的原始问题、子问题及其对应的搜索结果一同提交给大模型进行内容判断。

如果问题已经得到完整回答，则进入最终回答阶段。

如果达到预设的循环次数或 token 上限，同样进入最终回答阶段。

否则，大模型将生成新的问题，并继续下一轮循环。

方案亮点包括：

（1）私有数据利用：充分挖掘私有数据的价值，更好地与大模型结合。

（2）向量数据库优势：发挥向量数据库在处理大规模数据、低延迟搜索、多种索引策略、高可用性和资源弹性管理等方面的优势。

（3）数据管理：通过向量数据库高效管理私有数据，对不同类型的数据进行分库分表，支持多种应用，最大化数据价值，降低管理成本。

值得注意的是，为了更有效地保护私有数据，建议使用离线 LLM 大模型。如果使用 LLM API，即使仅返回部分检索数据，仍然存在数据泄露的风险。

4.Deep Searcher 落地效果

遵循上述思路，Deep Research 的本地部署开源版本——Deep Searcher，现已在 GitHub上开放源代码，项目链接为：https://github.com/zilliztech/deep-searcher。

当前项目功能包括：

第一、LLM 支持：支持 DeepSeek 官方版本、DeepSeek 硅基流动、DeepSeek TogetherAI、OpenAI。

第二、Embedding 模型支持：支持 Pymilvus 内置模型、OpenAI Embedding、VoyageAI Embedding。

第三、数据 Loader 支持：支持离线文档（比如：PDF、Markdown、TXT）、在线文档（可通过 FireCrawl、JinaReader、Crawl4AI 获取）。

第四、向量数据库支持：支持 Milvus、Zilliz Cloud（注册后即可免费体验，注册地址：https://cloud.zilliz.com.cn/login 或 https://cloud.zilliz.com/）。

‍最终效果预览如下：

GitHub 项目——Deep Searcher：https://github.com/zilliztech/deep-searcher。项目正处于快速迭代阶段。

总之，随着 DeepSeek 的爆火，2025年必定是 AI 大模型应用的爆发之年，其中最重要的应用形态就是 AI Agent 智能体。

AI Agent 智能体为啥如此重要？

第一、这是大势所趋，随着 DeepSeek 春节期间的爆火，我们正在经历一场重大技术变革，还不像当年的互联网的兴起，这是一场颠覆性的变革，掉队就等于淘汰，因为未来所有应用都将被 AI Agent 智能体重写一遍；

第二、现在处于红利期，先入场的同学至少会享受4~5年的红利，拿高薪，并且会掌握技术的主动权和职业选择权。

第三、企业需求旺盛，越来越多的企业已经在 AI Agent 智能体领域进行落地，这为我们提供了丰富的岗位机会和广阔的发展空间。

第四、大厂都在战略布局的方向，不管是国外的微软、谷歌，还是国内的百度等大厂都在战略布局，随着春节期间 DeepSeek 火出圈，2025年必定是 AI Agent 智能体商业化的一年。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述