DeepSearch/DeepResearch关系和区别

Gu_erye

于 2025-03-31 17:13:48 发布

阅读量321

点赞数

文章标签：人工智能

原文链接：https://github.com/jerrylususu/bookmark-summary/blob/main/202503/2025-03-05-deepsearch-deepresearch-%E5%AE%9E%E6%96%BD%E5%AE%9E%E7%94%A8%E6%8C%87%E5%8D%97.md

版权

DeepSearch/DeepResearch 实施实用指南

URL: A Practical Guide to Implementing DeepSearch/DeepResearch
Added At: 2025-03-05 13:15:08
Link To Text

TL;DR

DeepSearch是2025年新兴的搜索标准，通过迭代搜索、阅读和推理提供高质量答案。它集成了测试时计算和延迟满足技术，主要区别于DeepResearch，后者生成结构化长篇研究报告。实现细节包括系统提示、查询重写和网页内容抓取等。

Summary

DeepSearch简介：
- DeepSearch是2025年新兴的搜索标准，通过迭代搜索、阅读和推理，直到找到最佳答案。
- 主要公司如Google、OpenAI、Perplexity和X AI都推出了各自的DeepResearch或DeepSearch产品。
发展背景：
- DeepSearch的概念在2024年被称为RAG或多跳问答（multi-hop QA），但在2025年初随着DeepSeek-r1的发布而获得显著关注。
- 百度和腾讯也在其搜索产品中整合了DeepSeek-r1模型。
技术进步：
- 测试时计算（test-time compute）是推动DeepSearch发展的关键概念，允许模型在推理阶段使用更多计算资源，而非仅在预训练或后训练阶段。
- 延迟满足：用户接受更长的等待时间以换取更高质量的结果。
DeepSearch的工作原理：
- 迭代循环：通过搜索、阅读网页和推理的循环，直到找到答案或超出token预算。
- 状态机架构：LLM根据当前观察和过去动作决定下一步行动，形成一个由LLM控制的状态转换系统。
- 停止条件：基于token使用限制或失败尝试次数。
DeepResearch简介：
- DeepResearch在DeepSearch的基础上增加了生成结构化长篇研究报告的功能。
- 通过生成目录，然后对每个部分应用DeepSearch，最终整合所有部分以提高整体连贯性。
DeepSearch与DeepResearch的区别：
- 问题解决：DeepSearch专注于信息准确性和完整性，而DeepResearch关注文档规模的组织、连贯性和可读性。
- 最终呈现：DeepSearch提供简洁的答案，而DeepResearch生成多部分的长篇报告。
- 复杂性：DeepSearch的核心复杂性在于状态机架构，而DeepResearch需要管理微观（搜索）和宏观（文档）层面的复杂性。
实现细节：
- 系统提示：使用XML标签定义系统提示，确保生成的提示更加稳健。
- 间隙问题处理：通过FIFO队列处理间隙问题，确保所有问题共享一个上下文，避免递归方法的复杂性。
- 查询重写：查询重写是结果质量的关键因素，使用语义文本相似性模型进行跨语言查询去重。
- 网页内容抓取：使用Jina Reader API抓取网页内容，并聚合搜索引擎返回的片段作为额外知识。
内存管理：
- 知识与记忆：区分“知识”和“记忆”，确保LLM的上下文管理高效。
- 答案评估：答案生成和评估分开进行，使用少量示例进行一致性评估。
预算强制：
- 深层推理：通过预算强制确保系统进行深层推理，而非过早返回结果。
- 预算管理：设定失败尝试次数限制，并在接近预算限制时激活“野兽模式”，确保始终提供答案。
结论：
- DeepSearch通过将搜索过程分解为搜索、阅读和推理的步骤，克服了传统RAG系统的许多局限性。
- 在实现过程中，发现长上下文的LLM、查询扩展、网页搜索和内容抓取、以及嵌入模型在语义相似性任务中的应用都是至关重要的。