这个春节,DeepSeek 实在太火爆了。
近期,Open AI 推出的 Deep Research(深度研究)功能引发了广泛关注。该功能通过整合大模型、超级搜索和研究助理于一体,使得金融机构能够一键生成报告,科研人员能够一键撰写综述,极大提升了效率。然而,由于企业场景中私有化数据的敏感性和成本考虑,如何将 Deep Research 进行开源的本地化部署,成为许多人的关注焦点。
在这篇文章中,我们将对市场上模仿 Deep Research 的开源项目进行简要分析,并结合 Deepseek 等主流开源模型,Zilliz 推出一款名为 Deep Searcher 的开源项目。该项目的目标是帮助用户在企业级场景下,基于 Deep Research的思路,实现私有化部署。此外,此方案在现有的RAG(Retrieval-Augmented Generation)方案上进行了重要升级。
GitHub 的尝鲜链接:
https://github.com/zilliztech/deep-searcher
1.什么是 Deep Research,为什么需要开源平替?
最近,OpenAI 推出了一款先进的 AI 研究工具——Deep Research,目的是为了帮助用户更高效地处理复杂的研究工作。这款工具基于 OpenAI 最新的 o3 大模型,特别针对网络浏览和数据分析进行了优化。
第一、核心功能包括:
多阶段信息搜集与推理:Deep Research 能够自动执行多阶段的网络调研,迅速整合网络上的大量信息,涵盖文本、图片和 PDF 文件。
专业报告自动生成:通过分析综合数百个在线资源,Deep Research 可以在5至30分钟内生成一份包含详细引用的专业报告,显著减少传统研究所需的时间。
第二、应用场景涵盖:
学术研究:学者和研究人员可以利用 Deep Research 快速搜集相关领域的深入资料,辅助撰写论文和进行研究。
市场分析:企业可以使用此工具进行市场调研、竞争分析和产品比较,为商业决策提供支持。
产品评估:消费者可以利用 Deep Research 比较不同产品的特点和评价,做出更明智的购买选择。
总体而言,Deep Research 作为 OpenAI 推出的深度研究产品,旨在通过自动化的信息搜集和分析,助力用户高效完成复杂的研究任务。但目前,Deep Research 仅对美国地区的 OpenAI Pro 用户开放,费用为每月200美元,且每月查询次数限制为100次。
第三、开源解决方案:
目前,大多数用户尚无法使用 OpenAI 的 Deep Research 功能。不过,自从 OpenAI 发布该功能后,许多开源社区的贡献者开始分析并尝试复现这一功能。
GitHub 上已经出现了多个开源方案,它们的实现流程大致分为以下四个步骤:
第一步,问题分析:大模型分析用户提出的问题,确定回答问题所需的角度和步骤。许多大型模型(比如:DeepSeek、ChatGPT、Gemini 等)只需开启推理选项即可完成这一过程。
第二步,在线搜索:根据大模型生成的问题进行在线搜索,获取搜索结果的前 k 项,并将内容反馈给大模型。
第三步,内容总结:大模型根据在线内容生成简洁的答案。
第四步,答案验证:将所有内容汇总后,由大模型判断答案的完整性和准确性。
如果答案完整且准确,则输出最终答案。如果达到预设的循环次数或 token 上限,同样输出最终答案。否则,生成新问题,返回第一步,并将历史解决信息带入下一轮循环。
2.相比传统 RAG,Deep Research 有何亮点与不足
相较于之前的 RAG(Retrieval-Augmented Generation)方案,新方案实现了以下三个方面的创新:
第一、判定逻辑:通过引入额外的判定逻辑,提升了答案的精确度。Deep Research 利用多源验证、逻辑推理等质量控制手段,确保了研究成果的可靠性,并有效避免了传统 RAG 中常见的无目的检索和过度检索问题。与传统的 RAG 相比,Deep Research 在信息整合和验证方面更为严谨。
第二、以搜索结果为核心:答案主要基于搜索结果而非单纯依赖大模型的生成。大模型的作用在于内容汇总和相关性判断,从而增强了答案的可靠性。
第三、深度思考与处理复杂任务:Deep Research 能够模仿人类研究员进行多阶段的网络研究,理解信息、整合资源,并根据新发现调整研究策略。这种自主进行多步骤问题解决的能力,是普通 RAG 所不具备的。
虽然这些优势显著,但 Deep Research 也存在一些不足。从前面提供的方案中可以看出,Deep Research 的响应速度较慢,对计算资源和网络环境的要求也更高。更重要的是,其答案的主要信息来源依然是公开的网络搜索结果。
然而,在大多数企业场景中,真正有价值的数据通常是企业的内部数据,这些数据无法通过在线搜索获取,也不适合上传至大模型以避免隐私泄露的风险。此外,在线搜索引擎的结果可能包含误导性信息(比如:广告),且一些小众搜索引擎可能存在搜索延迟。
鉴于此,在多数企业级应用场景中,采用基于 Deep Research 思路的私有化部署可能是一个更佳的选择。
接下来,我们将以 Deep Searcher 为例,展示如何结合开源项目和本地数据,实现一个升级版的 Deep Research本地部署。
3.如何针对私有数据,做 Deep Research
以下是基于多数开源 Deep Research 方案改进后,Zilliz 推出的 Deep Searcher 开源实现方案的架构图:
从图中可以看出,Deep Searcher 通过集成向量数据库 Milvus,实现了对用户本地存储数据的快速、低延迟的大规模离线搜索。
Deep Searcher 的实现步骤如下:
第一步,问题解析:在接收到用户提问后,利用 LLM(Large Language Model)对问题进行分析,生成多个子问题,并明确每个子问题对应的数据集。
第二步,信息检索:根据 LLM 的分析结果,在向量数据库中检索相关信息。需要注意的是,向量数据库中的数据是离线存储的,因此在执行查询之前,需要先将数据导入数据库。这些数据可以是企业内部数据、在线下载的数据,或者是其他系统中定期导入的数据。
第三步,内容判断:向量数据库检索到相似信息后,将用户的原始问题、子问题及其对应的搜索结果一同提交给大模型进行内容判断。
如果问题已经得到完整回答,则进入最终回答阶段。
如果达到预设的循环次数或 token 上限,同样进入最终回答阶段。
否则,大模型将生成新的问题,并继续下一轮循环。
方案亮点包括:
(1)私有数据利用:充分挖掘私有数据的价值,更好地与大模型结合。
(2)向量数据库优势:发挥向量数据库在处理大规模数据、低延迟搜索、多种索引策略、高可用性和资源弹性管理等方面的优势。
(3)数据管理:通过向量数据库高效管理私有数据,对不同类型的数据进行分库分表,支持多种应用,最大化数据价值,降低管理成本。
值得注意的是,为了更有效地保护私有数据,建议使用离线 LLM 大模型。如果使用 LLM API,即使仅返回部分检索数据,仍然存在数据泄露的风险。
4.Deep Searcher 落地效果
遵循上述思路,Deep Research 的本地部署开源版本——Deep Searcher,现已在 GitHub上 开放源代码,项目链接为:https://github.com/zilliztech/deep-searcher。
当前项目功能包括:
第一、LLM 支持:支持 DeepSeek 官方版本、DeepSeek 硅基流动、DeepSeek TogetherAI、OpenAI。
第二、Embedding 模型支持:支持 Pymilvus 内置模型、OpenAI Embedding、VoyageAI Embedding。
第三、数据 Loader 支持:支持离线文档(比如:PDF、Markdown、TXT)、在线文档(可通过 FireCrawl、JinaReader、Crawl4AI 获取)。
第四、向量数据库支持:支持 Milvus、Zilliz Cloud(注册后即可免费体验,注册地址:https://cloud.zilliz.com.cn/login 或 https://cloud.zilliz.com/)。
最终效果预览如下:
GitHub 项目——Deep Searcher:https://github.com/zilliztech/deep-searcher。项目正处于快速迭代阶段。
总之,随着 DeepSeek 的爆火,2025年必定是 AI 大模型应用的爆发之年,其中最重要的应用形态就是 AI Agent 智能体。
AI Agent 智能体为啥如此重要?
第一、这是大势所趋,随着 DeepSeek 春节期间的爆火,我们正在经历一场重大技术变革,还不像当年的互联网的兴起,这是一场颠覆性的变革,掉队就等于淘汰,因为未来所有应用都将被 AI Agent 智能体重写一遍;
第二、现在处于红利期,先入场的同学至少会享受4~5年的红利,拿高薪,并且会掌握技术的主动权和职业选择权。
第三、企业需求旺盛,越来越多的企业已经在 AI Agent 智能体领域进行落地,这为我们提供了丰富的岗位机会和广阔的发展空间。
第四、大厂都在战略布局的方向,不管是国外的微软、谷歌,还是国内的百度等大厂都在战略布局,随着春节期间 DeepSeek 火出圈,2025年必定是 AI Agent 智能体商业化的一年。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。