DeepSearch/DeepResearch关系和区别

DeepSearch/DeepResearch 实施实用指南

TL;DR

DeepSearch是2025年新兴的搜索标准,通过迭代搜索、阅读和推理提供高质量答案。它集成了测试时计算和延迟满足技术,主要区别于DeepResearch,后者生成结构化长篇研究报告。实现细节包括系统提示、查询重写和网页内容抓取等。

Summary

  1. DeepSearch简介

    • DeepSearch是2025年新兴的搜索标准,通过迭代搜索、阅读和推理,直到找到最佳答案。
    • 主要公司如Google、OpenAI、Perplexity和X AI都推出了各自的DeepResearch或DeepSearch产品。
  2. 发展背景

    • DeepSearch的概念在2024年被称为RAG或多跳问答(multi-hop QA),但在2025年初随着DeepSeek-r1的发布而获得显著关注。
    • 百度和腾讯也在其搜索产品中整合了DeepSeek-r1模型。
  3. 技术进步

    • 测试时计算(test-time compute)是推动DeepSearch发展的关键概念,允许模型在推理阶段使用更多计算资源,而非仅在预训练或后训练阶段。
    • 延迟满足:用户接受更长的等待时间以换取更高质量的结果。
  4. DeepSearch的工作原理

    • 迭代循环:通过搜索、阅读网页和推理的循环,直到找到答案或超出token预算。
    • 状态机架构:LLM根据当前观察和过去动作决定下一步行动,形成一个由LLM控制的状态转换系统。
    • 停止条件:基于token使用限制或失败尝试次数。
  5. DeepResearch简介

    • DeepResearch在DeepSearch的基础上增加了生成结构化长篇研究报告的功能。
    • 通过生成目录,然后对每个部分应用DeepSearch,最终整合所有部分以提高整体连贯性。
  6. DeepSearch与DeepResearch的区别

    • 问题解决:DeepSearch专注于信息准确性和完整性,而DeepResearch关注文档规模的组织、连贯性和可读性。
    • 最终呈现:DeepSearch提供简洁的答案,而DeepResearch生成多部分的长篇报告。
    • 复杂性:DeepSearch的核心复杂性在于状态机架构,而DeepResearch需要管理微观(搜索)和宏观(文档)层面的复杂性。
  7. 实现细节

    • 系统提示:使用XML标签定义系统提示,确保生成的提示更加稳健。
    • 间隙问题处理:通过FIFO队列处理间隙问题,确保所有问题共享一个上下文,避免递归方法的复杂性。
    • 查询重写:查询重写是结果质量的关键因素,使用语义文本相似性模型进行跨语言查询去重。
    • 网页内容抓取:使用Jina Reader API抓取网页内容,并聚合搜索引擎返回的片段作为额外知识。
  8. 内存管理

    • 知识与记忆:区分“知识”和“记忆”,确保LLM的上下文管理高效。
    • 答案评估:答案生成和评估分开进行,使用少量示例进行一致性评估。
  9. 预算强制

    • 深层推理:通过预算强制确保系统进行深层推理,而非过早返回结果。
    • 预算管理:设定失败尝试次数限制,并在接近预算限制时激活“野兽模式”,确保始终提供答案。
  10. 结论

    • DeepSearch通过将搜索过程分解为搜索、阅读和推理的步骤,克服了传统RAG系统的许多局限性。
    • 在实现过程中,发现长上下文的LLM、查询扩展、网页搜索和内容抓取、以及嵌入模型在语义相似性任务中的应用都是至关重要的。

参考:https://github.com/jerrylususu/bookmark-summary/blob/main/202503/2025-03-05-deepsearch-deepresearch-%E5%AE%9E%E6%96%BD%E5%AE%9E%E7%94%A8%E6%8C%87%E5%8D%97.md

### 腾讯 Deep 系列技术概述 #### 什么是腾讯 Deep 系列? 腾讯 Deep 系列是一组专注于人工智能深度学习的技术解决方案,旨在解决复杂的数据处理、自然语言理解以及高效的信息检索等问题。其中最著名的两个项目分别是 **DeepSearch** **DeepResearch**。 #### DeepSearch 的功能与特点 DeepSearch 是一种先进的搜索技术框架,它的主要特点是将传统的单一搜索过程分解成多个独立的阶段:搜索、阅读推理[^1]。这种分步式的架构显著提升了系统对于复杂查询的理解能力,并有效解决了传统单轮 RAG(Retrieval-Augmented Generation)或多跳问答系统的不足之处。通过引入更深层次的语言理解逻辑推导机制,DeepSearch 实现了更加精准的结果匹配服务体验优化。 #### 关于文本摘要的核心概念技术背景 在讨论腾讯 Deep 系列之前,有必要先了解一些基础术语及其关联性。 - 文本摘要是指从原始文章中提取出具有代表性的短语或者句子来概括全文内容的过程[^2]。 - 深度学习是一种基于多层神经网络结构训练模型的方法论,擅长捕捉高维空间内的模式并揭示潜在规律特性。 - 当前主流的自动化文本生成方案往往融合了上述两种理念——即运用深度学习驱动下的算法完成高质量的内容压缩工作。 具体到实现层面,则涉及到以下几个关键技术环节: 1. **词嵌入(Word Embedding)** - 将词语映射至连续数值型向量空间以便计算机更好地解析语义关系; 2. **编码器/解码器架构**(Encoder-Decoder Framework) – 构建双向LSTM单元或其他变体形式用于捕获上下文信息; 3. **注意力机制**(Attention Mechanism)- 加强特定区域的重要性权重分配以提高最终输出质量. 这些组件共同协作构成了现代AI应用背后强大计算力支撑体系的一部分。 ```python import torch from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') def encode_text(text): inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True) outputs = model(**inputs) embeddings = outputs.last_hidden_state.mean(dim=1).detach().numpy() return embeddings ``` 此代码片段展示了如何使用预训练好的BERT模型来进行简单的文本编码操作,这是构建高级NLP应用程序的基础之一。 --- #### Nuxt.js 博客系统案例分析 虽然这并非直接隶属于腾讯 Deep 家族范畴之内,但是借助 Cloud Studio 平台配合 Vue/Nuxt 前端框架快速搭建个人站点实例同样值得借鉴参考价值不菲。该教程不仅详尽阐述了前后端交互原理同时还突出了云端IDE环境所带来的便捷之处[^3]. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值