大家好,我是玄姐。
正文开始之前,先给我自己打个广告,DeepSeek 爆火国之荣耀,为了回馈粉丝们的支持,原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》,直接降价到19元,今天再开放一天报名特权,仅限99名。
回到正题。
这个春节,DeepSeek 实在太火爆了。
近期,Open AI 推出的 Deep Research(深度研究)功能引发了广泛关注。该功能通过整合大模型、超级搜索和研究助理于一体,使得金融机构能够一键生成报告,科研人员能够一键撰写综述,极大提升了效率。然而,由于企业场景中私有化数据的敏感性和成本考虑,如何将 Deep Research 进行开源的本地化部署,成为许多人的关注焦点。
在这篇文章中,我们将对市场上模仿 Deep Research 的开源项目进行简要分析,并结合 Deepseek 等主流开源模型,Zilliz 推出一款名为 Deep Searcher 的开源项目。该项目的目标是帮助用户在企业级场景下,基于 Deep Research的思路,实现私有化部署。此外,此方案在现有的RAG(Retrieval-Augmented Generation)方案上进行了重要升级。
GitHub 的尝鲜链接:
https://github.com/zilliztech/deep-searcher
—1—
什么是 Deep Research,为什么需要开源平替?
最近,OpenAI 推出了一款先进的 AI 研究工具——Deep Research,目的是为了帮助用户更高效地处理复杂的研究工作。这款工具基于 OpenAI 最新的 o3 大模型,特别针对网络浏览和数据分析进行了优化。
第一、核心功能包括:
多阶段信息搜集与推理:Deep Research 能够自动执行多阶段的网络调研,迅速整合网络上的大量信息,涵盖文本、图片和 PDF 文件。
专业报告自动生成:通过分析综合数百个在线资源,Deep Research 可以在5至30分钟内生成一份包含详细引用的专业报告,显著减少传统研究所需的时间。
第二、应用场景涵盖:
学术研究:学者和研究人员可以利用 Deep Research 快速搜集相关领域的深入资料,辅助撰写论文和进行研究。
市场分析:企业可以使用此工具进行市场调研、竞争分析和产品比较,为商业决策提供支持。
产品评估:消费者可以利用 Deep Research 比较不同产品的特点和评价,做出更明智的购买选择。
总体而言,Deep Research 作为 OpenAI 推出的深度研究产品,旨在通过自动化的信息搜集和分析,助力用户高效完成复杂的研究任务。但目前,Deep Research 仅对美国地区的 OpenAI Pro 用户开放,费用为每月200美元,且每月查询次数限制为100次。
第三、开源解决方案:
目前,大多数用户尚无法使用 OpenAI 的 Deep Research 功能。不过,自从 OpenAI 发布该功能后,许多开源社区的贡献者开始分析并尝试复现这一功能。
GitHub 上已经出现了多个开源方案,它们的实现流程大致分为以下四个步骤:
第一步,问题分析:大模型分析用户提出的问题,确定回答问题所需的角度和步骤。许多大型模型(比如:DeepSeek、ChatGPT、Gemini 等)只需开启推理选项即可完成这一过程。
第二步,在线搜索:根据大模型生成的问题进行在线搜索,获取搜索结果的前 k 项,并将内容反馈给大模型。
第三步,内容总结:大模型根据在线内容生成简洁的答案。
第四步,答案验证:将所有内容汇总后,由大模型判断答案的完整性和准确性。
如果答案完整且准确,则输出最终答案。如果达到预设的循环次数或 token 上限,同样输出最终答案。否则,生成新问题,返回第一步,并将历史解决信息带入下一轮循环。