开放深度搜索：通过开源推理代理实现搜索民主化-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146641350

我们介绍了开放深度搜索（ODS），旨在缩小专有搜索AI解决方案（如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview）与其开源替代品之间的差距。ODS的主要创新是增强最新开源LLM的推理能力，使用能够明智地利用网络搜索工具来回答查询的推理代理。具体来说，ODS由两个与用户选择的基础LLM协同工作的组件组成：开放搜索工具和开放推理代理。开放推理代理解释给定任务并通过协调一系列动作（包括调用工具，其中之一是开放搜索工具）来完成任务。开放搜索工具是一种新型的网络搜索工具，其性能优于专有工具。结合强大的开源推理LLM（如DeepSeek-R1），ODS在两个基准测试中几乎达到并有时超越了现有最先进基线：SimpleQA和FRAMES。例如，在FRAMES评估基准上，ODS将最近发布的GPT-4o Search Preview的最佳现有基线提高了9.7%的准确性。ODS是一个通用框架，可以无缝增强任何LLM——例如，DeepSeek-R1在SimpleQA上达到了82.4%，在FRAMES上达到了30.1%——通过添加搜索和推理能力以实现最先进的性能：SimpleQA上的88.3%和FRAMES上的75.3%。

搜索AI——增强搜索引擎的大型语言模型（LLMs）——将LLM的检索增强生成（RAG）功能（例如， (Lewis et al. 2020) ）与搜索引擎的实时信息检索相结合。这种集成解决了LLM静态知识库的问题，使LLM能够提供最新且上下文相关的响应。最近的研究（如 (Vu et al. 2023) ）表明，将搜索引擎结果页面（SERP）API作为LLM的上下文输入优于先前的方法，例如自问法。

搜索AI的进步主要由专有解决方案主导，例如Google搜索、Bing、chatGPT搜索和Grok。特别是，Perplexity AI (Perplexity AI, Inc. 2024) 在此市场中表现出色，甚至威胁到成熟领导者。然而，这些闭源解决方案限制了透明度、创新和创业精神。为了发展一个搜索AI开发者社区，汇聚集体智慧，促进创新并鼓励创业，我们引入了开放深度搜索（ODS），这是一种开源AI搜索解决方案，在基准评估中实现了最先进的性能，匹配或超越了最佳闭源替代方案。

Perplexity AI有两种具有API访问权限的搜索AI产品：默认的Perplexity (Perplexity AI, Inc. 2024) 和针对复杂推理任务优化的Perplexity Sonar Reasoning Pro (PerplexityAI 2025a) 。表 1 显示了它们在两个流行评估基准SimpleQA (Wei et al. 2024) 和FRAMES (Krishna et al. 2024) 上的表现。请注意，所提出的两种版本的开放深度搜索（与开源DeepSeek-R1模型一起使用时）均优于Perplexity AI的旗舰搜索AI产品。另一个重要基线是OpenAI的GPT-4o Search Preview (OpenAI 2025a) ，该产品专为搜索AI设计并于2025年3月11日发布。ODS的第二版，即ODS-v2+DeepSeek-R1，在FRAMES上超越了GPT-4o Search Preview，并在SimpleQA上几乎与其持平。为了实现这一最先进性能，我们在开放深度搜索中进行了两项创新：开放搜索工具和开放推理代理。

Perplexity和OpenAI的搜索解决方案是闭源产品。Perplexity的开源替代品，如OpenPerplex (OpenPerplex 2024) 和 Perplexica (Perplexica 2024) 是开源搜索工具，其输出被总结并输入到LLM中以回答感兴趣的问题。然而，这些开源搜索工具有几个弱点，留下了显著改进的空间。首先，OpenPerplex和Perplexica主要将原始SERP结果作为LLM的上下文传递。此外，它们根据与用户查询的相关性对片段进行切分和重新排序。相比之下，我们的方法采用了一个更复杂的搜索过程，我们称之为开放搜索工具（详见第 2.1 节）。具体而言，我们在必要时重述查询，从前N个片段中提取上下文，并应用切分和重新排序以过滤相关性高于阈值的内容。这确保了所有相关搜索结果上下文的包含。此外，我们为Wikipedia、ArXiv和PubMed等主要API实现了自定义网站处理。

如表 1 所示，我们提供了两种版本的开放推理代理：一种基于ReAct代理 (Yao et al. 2022) ，另一种基于CodeAct代理 (Lv, Xia, and Huang 2024) 。开放推理代理的目标是解释查询，评估检索到的上下文，并使用适当的工具（包括我们提供的用于网络搜索的开放搜索工具）来回答查询。详细内容请参见第 2.2 节。

在下一节中，我们将详细介绍称为开放深度搜索的搜索AI。在第 3 节中，我们提供了SimpleQA和FRAMES两个评估基准的实证结果，以及ODS各个组件的消融研究。

2 开放深度搜索 ( ODS )

开放深度搜索 ( ODS ) 是一个即插即用的框架，用户可以无缝插入任何自己选择的基础LLM，无论是开源LLM还是通过API访问的闭源LLM。在我们的实验中，我们使用 ODS 与Llama3.1-70B模型或DeepSeek-R1模型结合。 ODS 由两部分组成：开放搜索工具和开放推理代理，这两部分都使用基础LLM。开放搜索工具是我们提供的开源工具，用于从互联网搜索和处理信息，详见第 2.1 节；开放推理代理是我们提供的开源代理，可以通过工具访问来回答查询，详见第 2.2 节。

我们为开放推理代理提供了两种解决方案：一种使用ReAct代理（我们称其为 ODS -v1，第一版），另一种使用CodeAct代理（我们称其为 ODS -v2，第二版）。包含这两个版本ODS的开源存储库可以在 https://github.com/sentient-agi/OpenDeepSearch 找到。我们使用术语 ODS -v?+base-model来指代特定实例化的 ODS 。例如， ODS -v1+Llama3.1-70B指的是使用ReAct代理并使用Llama3.1-70B作为基础模型的第一版 ODS ，而 ODS -v2+DeepSeek-R1指的是使用CodeAct代理并使用DeepSeek-R1作为基础模型的第一版 ODS 。

用户可以选择插入任何自己选择的基础LLM，并利用开放深度搜索（ ODS ）的开源框架，该框架包含两个组件：开放搜索工具和开放推理代理。查询首先输入到开放推理代理中，该代理协调可用的一组工具以解释和回答查询。最重要的工具是我们设计的开放搜索工具，它从多个检索来源提供高质量的上下文。在实验中，我们使用Llama3.1-70B和DeepSeek-R1作为基础模型。

2.1 开放搜索工具

我们提供开放搜索工具，该工具在最近的进展基础上进行了改进 (Vu et al. 2023) ，同时保持对 可扩展开源系统 的承诺。特别是，我们的方法重新审视了传统方法中的查询、检索和增强管道的不同组件。开放搜索工具接受查询作为输入，并生成一个上下文，供基础LLM使用，其中包含来自网络搜索的相关段落。开放搜索工具的质量对于 ODS 的成功至关重要，正如我们在第 3 节和附录 5 中的示例所示。

2.1.1 查询重述

2.1.2 检索

我们搜索流程的第二步是从搜索引擎结果页面API（SERP） 2 中检索相关信息。从API调用中检索到的结果随后被格式化、处理并插入LLM的上下文中。我们的格式化程序灵感来自于 FreshPrompt (Vu et al. 2023) 提示格式，其中我们包括每个搜索结果返回的元数据，例如标题、URL、描述和作者日期（如果可用）。此外，我们提示LLM优先考虑可靠来源，如政府机构、教育机构和知名研究机构，而不是其他来源，当搜索上下文包含冲突信息时。

2.1.3 增强

2.2 开放推理代理

开放推理代理从用户那里接收查询作为输入，并使用基础LLM和各种工具生成答案。上一节中的开放搜索工具是开放推理代理使用的其中一个关键工具。我们为用户提供两种解决方案：一种基于链式思维和ReAct代理（其端到端系统被称为 ODS -v1），另一种基于链式代码和CodeAct代理（其端到端系统被称为 ODS -v2）。

2.2.1 ODS -v1与ReAct代理

我们的第一个开放推理代理基于链式思维（CoT）推理 (Kojima et al. 2022; Wei et al. 2022) 和ReAct代理 (Yao et al. 2022) 。

链式思维（CoT） 提示通过鼓励模型在回答之前停下来思考，从而在LLM代理中激发出令人印象深刻的推理能力 (L. Wang et al. 2024; Chu et al. 2023) 。零样本CoT仅需在提供给模型的提示末尾附加短语“让我们逐步思考。”即可。 (Kojima et al. 2022) 结果还可以通过结合少量样本提示进一步改进，这是我们采用的方法。少量样本CoT包括在提示末尾附加几个CoT示例，作为一种情境学习形式 (Wei et al. 2022) 。

链式思维自一致性（CoT-SC） 进一步改进了简单CoT中使用的贪婪解码技术。与盲目选择单一贪婪推理路径不同，CoT-SC采样多条不同的路径并比较它们，然后选择其中最一致的答案。这在多项推理任务中，包括算术和问答任务，显著提升了朴素CoT的表现。 (X. Wang et al. 2022)

框架通过标准化接口实现工具集成：

Thought: [推理轨迹]
Action: Tool[参数]
Observation: [结果]

ReAct中的少量样本学习利用了一小套示范例子来引导模型的推理和行动模式。

<Question>什么是法国的首都？</Question><Thought>我需要确定法国的首都城市。</Thought><Action>search_internet</Action><Action_Input>"法国的首都"</Action_Input><Observation>法国的首都是巴黎。</Observation><Final_Answer>巴黎</Final_Answer>

说明了在 ODS -v1中使用的ReAct提示结构。

动态少量样本学习。 ReAct通过示例提示实施少量样本学习，其中一小套演示指导模型的推理和行动模式。为了优化提示效率，动态少量样本选择系统利用向量相似性匹配来检索每个任务中最相关的示例，同时保持性能并减少提示复杂性。

我们开展了一项社区活动，设计了在我们的少量样本模板中使用的200个ReAct提示。参与者被要求根据自己的推理直觉设计提示，从而产生了广泛的策略。他们获得了描述ReAct提示结构（Thought/Action/Action Input/Observation）的模板和一些测试集中的样本查询。我们确保他们无法访问基准本身。这项活动显著提高了我们ReAct代理的性能，因为在ReAct提示中代表了多样化的思维方式。附录 6 中提供了结果中的少量样本提示示例。

工具集成。 框架与外部工具集成，使问题解决能力更加复杂。我们在 ODS -v1中使用了三种工具：

网络搜索： 第2.1节中的开放搜索工具。
数学处理： 集成Wolfram Alpha API以处理算术和复杂数学计算。
继续思考： 使用基础LLM进行复杂查询分解的持续推理。

我们在 ODS -v1的开放推理代理中集成了CoT一致性采样、ReAct代理框架和少量样本提示。

当ReAct代理无法提供答案时——由Llama-3-8B判断模型决定——系统默认使用链式思维自一致性。这个备用过程通过多次调用LLM，聚类相似响应，并从最大聚类中随机选择一个响应，最终得出最终答案。

在以下取自FRAMES基准的例子中，我们可以看到 ODS -v1相对于最先进的闭源模型（如Perplexity的Sonar Reasoning Pro）的推理优势。两者都在潜在答案之间感到困惑。 ODS 正确识别112英寸为正确答案，并使用Wolfram-Alpha工具进行额外检查，将答案转换为2,845mm。相反，Sonar Reasoning Pro只报告了错误的答案2,858mm。

来自FRAMES的问题：如果1975年Lenore Marshall诗歌奖得主在Rupi Kaur于2014年出版《Milk and Honey》时仍然活着，那他/她会多大？正确答案： 90岁Perplexity的回答：要确定1975年Lenore Marshall诗歌奖得主如果在Rupi Kaur于2014年出版《Milk and Honey》时仍然活着的年龄，我们需要考虑以下几点： 1. **奖项年份**：Lenore Marshall诗歌奖于1975年颁发。 2. **《Milk and Honey》出版年份**：Rupi Kaur于2014年出版了《Milk and Honey》。 3. **年龄计算**：要找出年龄，从书籍出版年份减去奖项年份。如果得主在2014年仍然活着，我们按如下方式计算其年龄：\[ \text{2014年的年龄} = 2014 - 1975 = 39 \text{岁} \] 然而，此计算仅给出了两次事件之间的时间差。要找出该人的实际年龄，我们需要知道他们的出生年份。由于没有提供特定获奖者的出生年份，我们只能表示如果1975年获奖者在2014年仍然活着，那么他/她的年龄比1975年时大39岁。例如，如果获奖者在1975年时40岁，那么在2014年11月4日Rupi Kaur的《Milk and Honey》出版时，他/她应该是 $40 + 39 = 79$ 岁。如果没有确切的出生年份或获奖时的年龄，我们就无法提供精确的年龄[1][4].1-70B的回答： 'Initial_Thought'：为了回答这个问题，我将遵循以下步骤： 1. 确定1975年Lenore Marshall诗歌奖的获奖者。 2. 确定获奖者的出生年份。 3. 计算Rupi Kaur的书《Milk and Honey》（2014年11月4日出版）时获奖者的年龄。根据提供的上下文，1975年的获奖者是Cid Corman。 {'Thought': '现在我有了Cid Corman的出生年份，我可以计算他在Rupi Kaur的书《Milk and Honey》（2014年11月4日出版）时的年龄。不需要进一步步骤。'}, {'Action': calculate}, {'Action_Input': '2014-1924'}, {'Thought': 'final_result': 'Cid Corman出生于1924年，因此在Rupi Kaur的书《Milk and Honey》（2014年11月4日出版）时，他应该是90岁。是否需要进一步步骤？否。'}, {'Action': 'Done'}

来自FRAMES的一个问题示例，其中 ODS -v1使用Wolfram计算器工具准确计算了年龄差，得出正确答案为90岁。相反，Perplexity选择了错误的推理路径，报告了79岁的年龄。

2.2.2 ODS -v2与CodeAct代理

链式代码（CoC）。 尽管链式思维（CoT）在语义推理方面已被证明有效，但在需要精确数值或符号计算的任务中往往遇到挑战。为解决这些限制，链式代码 (C. Li et al. 2024) (CoC) 利用LLM的代码编写能力生成并执行代码或伪代码，以解决算法和语义问题。这种方法不仅拓宽了LM可处理的推理问题范围，还增强了其解决复杂任务的准确性。CoC在各种基准测试中超越了传统的CoT方法，展示了在LLM中集成代码生成和执行以实现更强大推理能力的潜力。

CodeAct。 最近的研究 (Lv, Xia, and Huang 2024) 显示，生成可执行的Python代码用于工具调用相较于传统的JSON方法显著提升了性能。特别是，LLM天生擅长通过代码压缩任务的动作空间。此外，代码作为一种表示形式，比JSON方法更容易组合、模块化和泛化。

在 ODS-v2 中，我们将搜索工具适配到SmolAgents的框架 (Roucher et al. 2025) 中，因为它允许定制并且易于分发。我们最基础的基于搜索的推理代理使用 (Roucher et al. 2025) CodeAgent（CodeAct的一种变体），并访问我们的搜索工具，如图 4 所示。更高级的 ODS-v2 版本涉及多个工具和代理协同工作，以解决更复杂的任务，这些任务可能涉及也可能不涉及搜索。

ODS-v2中的CodeAct代理回答一个多跳问题。

3 实验

基线。 我们将结果与Perplexity (Perplexity AI, Inc. 2024) 的专有搜索AI（包括其默认搜索AI Perplexity 和高级推理搜索AI Perplexity Sonar Reasoning Pro (PerplexityAI 2025a) ）以及OpenAI的最先进搜索AI：GPT-4o Search Preview (OpenAI 2025a) 进行比较。这些是具有搜索引擎访问权限的最先进AI解决方案。作为单独的基线，我们也与大型语言模型进行了比较：GPT-4o、Llama-3.1-70B 和 DeepSeek-R1。尽管这些模型无法访问互联网，我们在表 1 中展示，具备推理能力的LLM在我们的评估基准FRAMES (Krishna et al. 2024) 和 SimpleQA (Wei et al. 2024) 上表现出人意料的好。

3.1 在两个评估基准上的数值分析：FRAMES 和 SimpleQA

我们使用两个评估基准：FRAMES (Krishna et al. 2024) 和 SimpleQA (Wei et al. 2024) 。SimpleQA最初旨在测试前沿模型的事实性而无需浏览网页，而FRAMES旨在测试模型在单跳或多跳查询上的事实性和检索能力，其中提供了地面真实维基百科文章。在我们的场景中，我们使用这两个基准来评估具有互联网访问权限的搜索AI的准确性。

3.1.1 FRAMES的数值分析

FRAMES（Factuality, Retrieval, And reasoning MEasurement Set）数据集在 (Krishna et al. 2024) 中被引入，包含824个具有挑战性的多跳问题，要求整合多个维基百科来源。在 (Krishna et al. 2024) 报告的最佳单查询搜索方法中，Gemini-Pro-1.5-0514（2024年5月14日发布）在使用BM25得分最高的4个文档进行单查询搜索的情况下达到了47.4%的分数 (Robertson et al. 1995) 来自维基百科数据转储 3 。 ODS -v1+DeepSeek-R1在相同条件下实现了56.7%的分数，如表 2 所示。这相对于最先进的推理LLM（如DeepSeek-R1和GPT-4o）和搜索AI（如Perplexity和Perplexity Sonar Reasoning Pro）是一个显著的改进，如表 1 所示。基于CodeAct代理的 ODS -v2+DeepSeek-R1选择使用更多的搜索，从而在平均每次查询使用3.39次搜索的情况下，在FRAMES上实现了75.3%的分数。

在我们的推理代理下， ODS -v1+DeepSeek-R1可以选择运行更多搜索，但选择不这样做。另一方面，当 ODS -v1使用Llama3.1-70B作为基础模型时，它会使用更多的网络搜索来提高准确性，如表中所示，并在图 6 中举例说明。

在 (Krishna et al. 2024) 中报告称，通过多次网络搜索可以提高FRAMES上的准确性。例如，通过重新表述提示词进行15次搜索引擎搜索，Gemini-Pro-1.5-0514可以达到与 ODS -v1+DeepSeek-R1相似的性能。然而，这种多步多搜索的方法效率低下，因为它无论例子的难度或模型输出的正确性如何，都会固定调用一定数量（如15次）的搜索。这是我们提出代理框架的原因之一，我们的推理代理可以根据初始搜索质量和模型输出明智地选择是否再次搜索。这在表 2 中有所体现，其中 ODS -v1在与较弱的基础模型Llama3.1配对时使用了更多的网络搜索。图 6 中的示例展示了 ODS -v1在初始搜索不足时如何明智地使用搜索。类似地，对于 ODS -v2，它在SimpleQA上选择较少的网络搜索，这是一个相对简单的任务，只需要一个正确的信息源，而在FRAMES上则需要多个信息源，因此选择更多的网络搜索。

CodeAct-based ODS -v2的搜索次数直方图显示，它在相对简单的SimpleQA上使用的搜索次数较少，而在更为复杂的FRAMES上使用的搜索次数较多。

来自FRAMES的问题：原始演唱Kanye West歌曲《Power》中采样的那首歌的乐队领导是在哪一年出生的？正确答案： 1946年Perplexity的回答：歌曲《Power》由Kanye West创作，采样了几首曲目，其中包括King Crimson的《21st Century Schizoid Man》。在该歌曲时期，King Crimson的主唱和贝斯手是Greg Lake。 Greg Lake，King Crimson乐队在《21st Century Schizoid Man》中的领导和原始主唱，于1947年11月10日出生[2][4]。ODS-v1+Llama3.1-70B的回答： '$Initial_Thought$': 为了回答这个问题，我将遵循以下步骤： 1. 确定Kanye West歌曲《Power》中采样的那首歌。 2. 确定最初表演采样歌曲的乐队。 3. 确定原乐队的领导者。 4. 找到乐队领导者的出生年份。根据上下文，我可以从确定Kanye West歌曲《Power》中采样的那首歌开始。根据上下文，采样的歌曲是King Crimson的《21st Century Schizoid Man》。接下来，我可以确定最初表演采样歌曲的乐队，即King Crimson。现在我需要确定King Crimson的乐队领导者。根据上下文，King Crimson的创始人是Emilio Castillo，但这并不正确。重新阅读上下文后，我发现King Crimson的创始人没有明确提及，但提到该乐队成立于1968年10月。然而，我可以推断King Crimson的乐队领导者可能是该乐队著名的吉他手和作曲家Robert Fripp。但是，我在给定的上下文中找不到有关Robert Fripp出生年份的信息。让我继续搜索King Crimson乐队领导者的出生年份... 'Action': '$search_internet$', '$Action_Input$': 'Robert Fripp出生年份' 'Thought': 根据搜索结果，我找到了King Crimson乐队领导者的出生年份是1946年5月16日。', '$Action$': 'Done'

来自FRAMES的一个问题和答案示例，其中 ODS -v1+Llama3.1-70B意识到需要进行第二次搜索，再次搜索找到King Crimson乐队主唱的出生年份，并正确回答问题为“1946”。相比之下，Perplexity (Perplexity AI, Inc. 2024) 无法确定King Crimson乐队的领导。

3.1.2 SimpleQA的数值分析

SimpleQA在 (Wei et al. 2024) 中被引入，是一种基准评估数据集，对抗性地针对GPT-4收集，设计的问题只有一个无可争议的答案。它包含4326个简短形式的事实性问题，例如，“加拿大真人秀系列《To Serve and Protect》在美国哪个电视台首播？”或者“谁获得了2010年的IEEE Frank Rosenblatt奖？” 使用GPT-4o-mini作为法官模型检查响应相对于真实值的正确性，例如“KVOS-TV”或“Michio Sugeno”。它涵盖了多种主题的问题，包括科学与技术（n=858）、政治（n=709）、艺术（n=550）、地理（n=424）、体育（n=368）、音乐（n=341）、电视节目（n=293）、历史（n=173）和视频游戏（n=135）。在 (Wei et al. 2024) 中报告称，GPT-4o得分为38.2%，Claude-3.5-sonnet（2024-06-20发布）得分为28.9%，OpenAI o1-preview得分为42.7%。 ODS -v1和 ODS -v2通过利用我们提供的高质量搜索结果（见第 2.1 节）和开放推理代理框架（见第 2.2 节），分别达到了87.7%和88.3%的准确率（表 1 ）。重要的是要注意，这一提升来自于高质量的搜索工具（如图 7 中的示例所示）和推理代理（如图 8 中的示例所示）。

来自SimpleQA的问题： Sen no Kiseki IV - The End of Saga - 原声带第二张光盘的第十首曲目叫什么名字？正确答案： Break InPerplexity Sonar Reasoning Pro的回答：好的，让我们处理这个查询。用户询问Sen no Kiseki IV - The End of Saga原声带第二张光盘的第十首曲目名称。首先，我需要检查提供的搜索结果。让我逐一查看每个来源以找到第二张光盘的曲目列表。查看结果[1]，这是来自Apple Music的，它列出了曲目，但只显示了第一张光盘的前几首曲目。完整的曲目列表在这里不可见，所以这可能不会直接帮助。结果[2]来自Spotify，提到了一些曲目名称如“Beyond Ten Millions of Nights”和“Path to the...”，但没有清楚地标明曲目编号或光盘划分。这里的信息不够。结果[3] .....但在提供的数据结果[7]中，我没有看到按光盘划分的分解。等等，也许结果[7]包含了所有曲目作为一个列表？让我再检查一下。结果[7]列出了“文件数量：69”和“总文件大小：365 MB (MP3)，3,866 MB (FLAC)。”但实际上的曲目列表并没有在这里显示。用户需要知道具体是哪一首曲目是第二张光盘的第十首曲目。如果没有看到按光盘拆分的完整曲目列表，这可能不会直接帮助。结果[8]在SoundCloud上有一首标题翻译为“Each Person's Resolution”的曲目，但它属于第三张光盘，根据URL。所以这与当前无关。如果我们考虑每张光盘大约有~23首曲目，那么第二张光盘的第十首曲目大致是整体的第33首曲目左右，但不知道确切名称，这种方法将不起作用。或者，也许有人可以根据其他游戏的原声结构进行推测。ODS-v1+DeepSeek-R1的回答： Initial_Thought: <think> 好的，让我们尝试找出Sen no Kiseki IV第二张光盘第十首曲目的名称。首先，我需要查看提供的上下文并寻找任何关于第二张光盘曲目列表的提及。查看上下文片段，有几个关于第二张光盘的提及。其中一个说：“Disc 2；2.10，Break In Break In，C : HS；2.11，Trump Card for the Worst Situation，C : HS；2.12，Bold Assailants...” ...所以综合起来，第二张光盘的第十首曲目很可能是“Break In”。</think> 第二张光盘的第十首曲目名称为“Break In”。这已通过上下文片段明确列出2.10为“Break In Break In”得到确认。 Action: Done final_result: 第二张光盘的第十首曲目名称为“Break In”。

一个来自SimpleQA的例子问题和答案，其中 ODS -v1利用高质量检索到的上下文来识别正确答案，通过交叉检查多个来源。Perplexity Sonar Reasoning Pro (PerplexityAI 2025a) 未能在搜索中检索到相关信息。

来自SimpleQA的问题： Jensen Interceptor（1950），1950年至1957年间生产的车型，其轮距测量值是多少毫米？正确答案： 2,845 mmPerplexity Sonar Reasoning Pro的回答：让我们解决这个关于Jensen Interceptor（1950）轮距毫米数的查询。用户特别询问了1950年至1957年间生产的型号的轮距测量值。首先，我将在提供的搜索结果中查找轮距的提及。逐一查看每个来源： - 结果[1]来自http://automobile-catalog.com，指出：“轮距：2858 毫米/112.5 英寸”。这似乎直接相关。 - 结果[3]来自http://motor-car.net，列出了“轮距：112 英寸（2,845 毫米）”。Jensen Interceptor 1950至1957年生产的车型轮距为2,858 毫米（112.5英寸）[1][8]。此测量值在多个来源的技术规格中是一致的[1][3][8]。ODS-v1+DeepSeek-R1的回答： 'Initial_Thought': '<think> 好的，让我们解决这个问题，关于Jensen Interceptor（1950）轮距毫米数。用户特别询问了1950年至1957年间生产的型号。首先，我需要查看提供的上下文并找到特定模型和年份的轮距测量值。查看上下文片段，有几次提到轮距测量值。让我列出相关的： 1. “Jensen Interceptor (1950)；4速手动，112 英寸（2,845 毫米），183 英寸（4,648 毫米）。”这里，112英寸转换为2,845毫米。这似乎直接提到了1950年型号的轮距。 2. 另一个片段说：“轮距：112 英寸（2,845 毫米）。长度，183 英寸（4,648 毫米）。宽度，66 英寸（1,676 毫米）。”...}, {'Thought': "上下文中同时提到112英寸（2844.8毫米）和112.5英寸（2857.5毫米）。1950年型号的原始规范中提到112英寸（2845毫米），而后来对敞篷车和其他变种的引用可能使用112.5英寸。由于用户指定了1950-1957年型号，主要来自1950年文章的值是112英寸。让我转换这个值。"}, {'Action': 'calculate'}, {'Action_Input': '112 inches to millimeters'}, {'Observation': {'2845mm"'}}, {'Thought': ''}, {'Action': 'Done'}, 'final_result': 'Jensen Interceptor (1950)在1950年至1957年间生产的轮距测量值为2,845毫米。''

一个来自SimpleQA的例子问题和答案，其中开放推理代理正确识别112英寸为正确答案，并通过Wolfram-Alpha API进行额外检查，将答案转换为2,845毫米。相比之下，Perplexity Sonar Reasoning Pro (PerplexityAI 2025a) 在112.5英寸和112英寸之间混淆了潜在答案。我们在附录 5 中提供了完整的响应。

在表 3 中，我们调查了其他来源报告的SimpleQA准确率结果，以及 ODS -v1+Llama3.1-70B、 ODS -v1+DeepSeek-R1和 ODS -v2+DeepSeek-R1的结果。借助DeepSeek-R1的推理能力， ODS -v1+DeepSeek-R1在 ODS -v1+Llama3.1-70B的基础上有所提升。最近还有更先进的闭源解决方案，如GPT-4o Search Preview (OpenAI 2025a) 、Exa (Bryk 2025) 、Linkup (Mizrahi 2025) 和Perplexity Deep Research (PerplexityAI 2025b) 声称在SimpleQA上取得了更高的分数。 ODS 提供了一个开源解决方案，可以显著缩小开源搜索AI解决方案和闭源解决方案之间的差距。

3.2 ODS的消融研究

在表 4 中，我们对 ODS -v1中的基于ReAct的开放推理代理进行了消融研究。单独使用Llama3.1-70B在SimpleQA的一个子集上（为效率起见，随机选择了500个样本）达到了21.2%，在FRAMES上达到了34.3%。通过我们的开放搜索工具（我们在表格中简称为Search），SimpleQA的性能显著提升至82.4%，但FRAMES的性能下降至27.6%。我们的开放推理代理有两个部分：基于链式思维和自一致性解码的ReAct（CoT-ReAct）以及少量样本提示（FewShot）。逐步添加这些组件后，我们在子样本SimpleQA和FRAMES上都获得了渐进的改进。这表明 ODS -v1的每个组件都对所实现的性能有所贡献。最后，通过将基础模型从Llama3.1-70B替换为更强大的推理模型DeepSeek-R1，我们展示了 ODS -v1如何利用LLM的推理能力来实现更好的性能。

4 结论

为了弥合最先进的专有搜索AI解决方案（如Perplexity Sonar Reasoning Pro (PerplexityAI 2025a) 和 GPT-4o Search Preview (OpenAI 2025a) ）与它们的开源替代品之间的日益扩大的差距 (Vu et al. 2023; OpenPerplex 2024; Perplexica 2024) ，我们引入了开放深度搜索（ODS）。这种开源搜索AI可以无缝结合用户选择的任何LLM，以插件方式运行。这使得ODS能够利用最新的推理LLM进展，从而实现越来越准确的性能。当使用DeepSeek-R1时，ODS可以在FRAMES基准测试中达到75.3%的准确性，比2025年3月11日发布的GPT-4o Search Preview高出10%（表 1 ）。在另一个SimpleQA基准测试中，ODS显著缩小了开源和闭源解决方案之间的差距。这一重要里程碑是通过ODS的两个组成部分之间的协同作用实现的：开放搜索工具和开放推理代理。

我们引入了 开放搜索工具 ，用于提供高质量的互联网检索结果，作为ODS内推理代理框架使用的工具。
开放推理代理 解释给定的任务并通过调用可用工具（包括我们的提议的开放搜索工具、计算器（由Wolfram Alpha API提供）、反思（使用提供的基础LLM）和代码解释器（我们使用Python解释器））来完成任务。

与最新的强大推理LLM一起，这两个组成ODS的开源组件确保我们在搜索方面实现了最先进的性能。开放搜索工具相对于专有对手的优势在例如图 7 和其他附录 5 中的例子中得到了证明。开放推理代理的优势在例如图 6 和图 8 以及其他附录 5 中的例子中得到了证明。

我们提供了两种版本的开放推理代理：一种基于ReAct，另一种基于CodeAct。我们公开发布所有开源实现，并邀请开源社区在此基础上进行创新，从我们的最先进搜索AI解决方案开始。

附录

5 来自SimpleQA和FRAMES的例子响应和比较

5.1 FRAMES

在这个FRAMES示例中，ODS+DeepSeek-R1正确识别112英寸为正确答案，并通过Wolfram-Alpha API进行额外检查，将答案转换为2,845毫米。另一方面，Perplexity Sonar Reasoning Pro在2,858毫米和2,845毫米之间感到困惑。

来自FRAMES的问题： Jensen Interceptor (1950)，1950年至1957年间生产的车型，其轮距测量值是多少毫米？正确答案： 2,845 毫米Perplexity Sonar Reasoning Pro的回答：<think> 好的，我需要找到Jensen Interceptor (1950)轮距的具体测量值。让我逐一查看提供的搜索结果以确定此信息。首先查看第一个搜索结果[1]，它提到1950年7月20日，Armstrong在首次出庭时无罪抗辩。CBS Austin的来源似乎可靠。另一个提及[4]来自CBS Austin的时间轴，确认1950年7月20日，Armstrong无罪抗辩并要求快速审判。查看[6]，ESPN的文章也提到，在哥斯达黎加被捕并返回美国后，Armstrong无罪抗辩。时间轴[4]列出2022年的事件下，指定了她首次出庭时无罪抗辩的日期为7月20日。此外，[7]来自CBS News，提到Armstrong对一级谋杀指控无罪抗辩，但未具体说明日期。然而，结合所有这些来源，多个参考中的一致日期是2022年7月20日。我应该检查是否在其他地方提到了不同的日期。例如，[2]讨论了从2023年10月开始的审判时间线，但未提及出庭日期。[8]和[9]讨论了后续的上诉和逃脱尝试，但未提及最初的抗辩。因此，综合[1]、[4]和[6]的信息，正确日期是2022年7月20日。 </think>Kaitlin Armstrong在Moriah Wilson谋杀指控中无罪抗辩并在**2022年7月20日**被起诉。这发生在她被引渡回美国后的首次出庭中，当时她还要求快速审判[4]。 Travis县法院在其被逮捕并从哥斯达黎加返回德州羁押后处理了她的抗辩[6]。ODS-v1+DeepSeek-R1的回答： {'Initial_Thought': '<think>\n好的，让我们一步步解决这个问题。用户询问的是Kaitlin Armstrong在对Moriah Wilson谋杀指控中无罪抗辩并被起诉的具体日期（月份、日期和年份）。\n\n首先，我需要回忆提供的上下文。上下文包含多个与Kaitlin Armstrong案件相关的日期和事件。让我逐一查看每条相关信息。\n\n查看上下文条目，有几个提到她的抗辩。例如，一条条目说：“2022年7月，Armstrong对Wilson的谋杀指控无罪抗辩。最初审判日期定于2023年6月26日。然而，... 2024年8月27日。”另一条条目提到：“Armstrong在2022年7月21日被起诉，对谋杀指控无罪抗辩....， {'Thought': '我需要解决冲突的日期。上下文提到她的抗辩日期为2022年7月20日和2022年7月21日。让我检查更多条目。另一条条目提到：“Kaitlin Armstrong在2022年7月21日被起诉，对谋杀指控无罪抗辩。她被保释金定为350万美元...” 这明确将起诉日期链接到2022年7月21日.....鉴于上下文中明确提到2022年7月21日的起诉，这很可能就是正确日期。因此，答案是2022年7月21日。'}, {'Action': 'Done'}, {'Action_Input': ''} 'final_result': 'Kaitlin Armstrong在2022年7月21日对Moriah Wilson的谋杀指控无罪抗辩并被起诉。'

ODS +DeepSeek-R1正确遵循了一条推理路径，确定Rosie Perez在电视节目《In Living Color》中担任的角色是段落制片人。 ODS 通过多个来源确认结果。相比之下，Perplexity Sonar REasoning Pro谈论她“指导段落”，未能将其推理组织成正确的回答。

来自SimpleQA的问题：除了担任电视连续剧《In Living Color》的编舞之外，Rosie Perez还在节目中担任了什么其他工作？正确答案：段落制片人Perplexity Sonar Reasoning Pro的回答： <think> 好的，让我们解决这个关于Rosie Perez和她在《In Living Color》中角色的问题。用户想知道她除了担任编舞之外还做了什么工作。首先，我需要浏览提供的搜索结果。让我们逐一查看每个来源。从搜索结果来看，[1]提到Rosie Perez是Fly Girls合作的一部分。[2]指出她是剧组成员和编舞者。... 然而，其他来源如[9]并未将她列为主要演员，而是列为工作人员。IMDb条目[8]显示她导演了一些节目的段落。因此，除了担任编舞者之外，Rosie Perez还导演了《In Living Color》的某些段落，特别是舞蹈间歇。此外，如果担任演员指的是出现在小品中，但这从来源中不太清楚...她**导演了段落**[8]。特别地，Perez在第2季到第4季（1991-1993）期间导演了“Dance Bumpers”段落。这些短舞蹈序列在小品和广告之间过渡，展现了她超越编舞的创造性视野....尽管她自己不是常规小品表演者[9]，但她的幕后影响力延伸到了制作决策和文化策划[7]。ODS-v1+DeepSeek-R1的回答： {Initial_Thought': '<think>\n好的，让我们解决这个问题。用户询问Rosie Perez在电视节目《In Living Color》中除了担任编舞之外还做了什么工作。我需要浏览提供的上下文，查找她除编舞之外的角色。查看上下文片段，几个提到她在The Fly Girls中担任编舞。但有一行提到：“职业；《In Living Color》，并且还担任段落制片人...同样，另一行：“职业；《In Living Color》，并且还担任段落制片人。”所以多次提到她担任段落制片人...这是在上下文片段中明确提到的，突出了她对节目的双重贡献。'}, {'Thought': ''}, {'Action': 'Done'}, {'Action_Input': ''} 'final_result': 'Rosie Perez还在电视连续剧《In Living Color》中担任段落制片人。'

6 在ODS-v1的基于ReAct的开放推理代理中使用的少数示例链式思考问题和代理响应示例

以下20个示例是我们通过社区活动得出的，用于改进ODS的更好提示。

6.0.0.1 示例1

<Question> 哪个历史事件离电话的发明最近：美国内战还是埃菲尔铁塔的建立？ </Question>
<Thought> 我需要找到电话发明的年份。 </Thought>
<Action>search_internet</Action><Action_Input>电话发明的年份</Action_Input>
<Observation> 电话发明于1876年。 </Observation>
<Thought> 我需要找到美国内战结束的年份。 </Thought>
<Action>search_internet</Action><Action_Input>美国内战结束的年份</Action_Input>
<Observation> 美国内战结束于1865年。 </Observation>
<Thought> 我需要找到埃菲尔铁塔建立的年份。 </Thought>
<Action>search_internet</Action><Action_Input>埃菲尔铁塔建立的年份</Action_Input>
<Observation> 埃菲尔铁塔于1889年完工。 </Observation>
<Thought> 我将计算与1876年的时差。 </Thought>
<Action>calculate</Action><Action_Input>|1876 - 1865| 和 |1889 - 1876|</Action_Input>
<Observation> 11年（美国内战）和13年（埃菲尔铁塔）。 </Observation>
<Thought> 距电话发明最近的历史事件是美国内战的结束。 </Thought>
<Action>Done</Action>
<Final_Answer> 距电话发明最近的历史事件是美国内战的结束（相差11年）。 </Final_Answer>

6.0.0.2 示例2

<Question> 哪个国家的人口密度更高：日本还是印度？ </Question>
<Thought> 我需要找到日本的人口和面积。 </Thought>
<Action>search_internet</Action>
<Action_Input>日本的人口和面积</Action_Input>
<Observation> 日本有1.25亿人口，面积为377,975平方公里。 </Observation>
<Thought> 我需要找到印度的人口和面积。 </Thought>
<Action>search_internet</Action>
<Action_Input>印度的人口和面积</Action_Input>
<Observation> 印度有13.8亿人口，面积为3,287,263平方公里。 </Observation>
<Thought> 我需要计算日本和印度的人口密度。 </Thought>
<Action>calculate</Action>
<Action_Input>1.25亿 / 377,975 和 13.8亿 / 3,287,263</Action_Input>
<Observation> 日本：330.7人/平方公里；印度：419.6人/平方公里。 </Observation>
<Thought> 印度的人口密度比日本高。 </Thought>
<Action>Done</Action>
<Final_Answer> 印度的人口密度（419.6人/平方公里）比日本（330.7人/平方公里）高。 </Final_Answer>

6.0.0.3 示例3

<Question> 哪个国家赢得的奥运会金牌总数更多：美国还是中国？ </Question>
<Thought> 我需要找到美国赢得的奥运会金牌总数。 </Thought>
<Action>search_internet</Action>
<Action_Input>美国赢得的奥运会金牌总数</Action_Input>
<Observation> 美国赢得了1,127枚金牌。 </Observation>
<Thought> 我需要找到中国赢得的奥运会金牌总数。 </Thought>
<Action>search_internet</Action>
<Action_Input>中国赢得的奥运会金牌总数</Action_Input>
<Observation> 中国赢得了283枚金牌。 </Observation>
<Thought> 我将比较这两个数字。 </Thought>
<Action>calculate</Action>
<Action_Input>1,127 - 283</Action_Input>
<Observation> 美国比中国多赢了844枚金牌。 </Observation>
<Thought> 美国赢得的金牌数量更多。 </Thought>
<Action>Done</Action>
<Final_Answer> 美国赢得的奥运金牌数量（1,127枚）比中国（283枚）更多。 </Final_Answer>

6.0.0.4 示例4

<Question> 谁发现了DNA结构，这项发现是在哪一年做出的？ </Question>
<Thought> 我需要找到谁发现了DNA结构。 </Thought>
<Action>search_internet</Action>
<Action_Input>科学家发现DNA结构</Action_Input>
<Observation> James Watson和Francis Crick发现了DNA结构。 </Observation>
<Thought> 我需要找到他们发现的年份。 </Thought>
<Action>search_internet</Action>
<Action_Input>DNA结构发现的年份</Action_Input>
<Observation> DNA结构是在1953年发现的。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> James Watson和Francis Crick在1953年发现了DNA结构。 </Final_Answer>

6.0.0.5 示例5

<Question> 与帝国大厦相比，哈利法塔高多少米？ </Question>
<Thought> 我需要找到哈利法塔的高度。 </Thought>
<Action>search_internet</Action>
<Action_Input>哈利法塔高度</Action_Input>
<Observation> 哈利法塔高828米。 </Observation>
<Thought> 我需要找到帝国大厦的高度。 </Thought>
<Action>search_internet</Action>
<Action_Input>帝国大厦高度</Action_Input>
<Observation> 帝国大厦高381米。 </Observation>
<Thought> 我将计算高度差。 </Thought>
<Action>calculate</Action>
<Action_Input>828 - 381</Action_Input>
<Observation> 高度差为447米。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 哈利法塔比帝国大厦高447米。 </Final_Answer>

6.0.0.6 示例6

<Question> 哪个国家发射了第一颗人造卫星，那颗卫星的名字是什么？ </Question>
<Thought> 我需要找到发射第一颗人造卫星的国家。 </Thought>
<Action>search_internet</Action>
<Action_Input>第一个发射卫星的国家</Action_Input>
<Observation> 苏联发射了第一颗人造卫星。 </Observation>
<Thought> 我需要找到卫星的名字。 </Thought>
<Action>search_internet</Action>
<Action_Input>第一颗卫星的名字</Action_Input>
<Observation> 第一颗卫星叫斯普特尼克一号。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 苏联在1957年发射了第一颗人造卫星，名为斯普特尼克一号。 </Final_Answer>

6.0.0.7 示例7

<Question> 乔治·奥威尔的哪部小说引入了“老大哥”的概念，该小说在哪一年出版？ </Question>
<Thought> 我需要确定乔治·奥威尔引入“老大哥”的小说。 </Thought>
<Action>search_internet</Action>
<Action_Input>乔治·奥威尔的小说引入了老大哥的概念</Action_Input>
<Observation> 小说是《1984》。 </Observation>
<Thought> 我需要找到该书的出版年份。 </Thought>
<Action>search_internet</Action>
<Action_Input>乔治·奥威尔的《1984》出版年份</Action_Input>
<Observation> 《1984》于1949年出版。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 乔治·奥威尔的小说《1984》引入了“老大哥”的概念，并于1949年出版。 </Final_Answer>

6.0.0.8 示例8

<Question> 哪个国家举办了第一届FIFA世界杯，那届世界杯是在哪一年举行的？ </Question>
<Thought> 我需要找到举办第一届FIFA世界杯的国家。 </Thought>
<Action>search_internet</Action>
<Action_Input>哪个国家举办了第一届FIFA世界杯</Action_Input>
<Observation> 乌拉圭举办了第一届FIFA世界杯。 </Observation>
<Thought> 我需要找到第一届FIFA世界杯的年份。 </Thought>
<Action>search_internet</Action>
<Action_Input>第一届FIFA世界杯的年份</Action_Input>
<Observation> 第一届FIFA世界杯于1930年举行。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 乌拉圭在1930年举办了第一届FIFA世界杯。 </Final_Answer>

6.0.0.9 示例9

<Question> 谁发明了电灯泡，他后来建立了哪家公司？ </Question>
<Thought> 我需要找到谁发明了电灯泡。 </Thought>
<Action>search_internet</Action>
<Action_Input>发明电灯泡的科学家</Action_Input>
<Observation> Thomas Edison发明了电灯泡。 </Observation>
<Thought> 我需要找到Thomas Edison建立的公司。 </Thought>
<Action>search_internet</Action>
<Action_Input>Thomas Edison建立的公司</Action_Input>
<Observation> Thomas Edison创立了通用电气公司。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> Thomas Edison发明了电灯泡，并随后创立了通用电气公司。 </Final_Answer>

6.0.0.10 示例10

<Question> 独立宣言在哪座城市签署，又是在哪座建筑中签署的？ </Question>
<Thought> 我需要找到签署独立宣言的城市。 </Thought>
<Action>search_internet</Action>
<Action_Input>签署独立宣言的城市</Action_Input>
<Observation> 独立宣言在费城签署。 </Observation>
<Thought> 我需要找到签署的建筑名称。 </Thought>
<Action>search_internet</Action>
<Action_Input>签署独立宣言的建筑名称</Action_Input>
<Observation> 签署地点是独立大厅。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 独立宣言在费城的独立大厅签署。 </Final_Answer>

6.0.0.11 示例11

<Question> 谁提出了广义相对论理论，他在哪一年发表了这一理论？ </Question>
<Thought> 我需要找到谁提出了广义相对论理论。 </Thought>
<Action>search_internet</Action>
<Action_Input>提出广义相对论的科学家</Action_Input>
<Observation> Albert Einstein提出了广义相对论理论。 </Observation>
<Thought> 我需要找到该理论发表的年份。 </Thought>
<Action>search_internet</Action>
<Action_Input>广义相对论发表的年份</Action_Input>
<Observation> 广义相对论理论发表于1915年。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> Albert Einstein提出了广义相对论理论，并于1915年发表了这一理论。 </Final_Answer>

6.0.0.12 示例12

<Question> 哪个城市签署了《独立宣言》，又是在哪栋建筑中签署的？ </Question>
<Thought> 我需要找到签署《独立宣言》的城市。 </Thought>
<Action>search_internet</Action>
<Action_Input>签署《独立宣言》的城市</Action_Input>
<Observation> 《独立宣言》在费城签署。 </Observation>
<Thought> 我需要找到签署的建筑名称。 </Thought>
<Action>search_internet</Action>
<Action_Input>签署《独立宣言》的建筑名称</Action_Input>
<Observation> 签署地点是独立大厅。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 《独立宣言》在费城的独立大厅签署。 </Final_Answer>

6.0.0.13 示例13

<Question> 美国历史上第一位连任两届非连续任期的总统是谁？ </Question>
<Thought> 我需要找到连任两届非连续任期的美国总统。 </Thought>
<Action>search_internet</Action>
<Action_Input>连任两届非连续任期的美国总统</Action_Input>
<Observation> Grover Cleveland是第一位连任两届非连续任期的美国总统。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> Grover Cleveland是美国历史上第一位连任两届非连续任期的总统。 </Final_Answer>

6.0.0.14 示例14

<Question> 非洲最高的山是什么，它的高度是多少？ </Question>
<Thought> 我需要找到非洲最高的山。 </Thought>
<Action>search_internet</Action>
<Action_Input>非洲最高的山</Action_Input>
<Observation>乞力马扎罗山是非洲最高的山。 </Observation>
<Thought> 我需要找到乞力马扎罗山的高度。 </Thought>
<Action>search_internet</Action>
<Action_Input>乞力马扎罗山的高度</Action_Input>
<Observation> 乞力马扎罗山高5,895米。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 乞力马扎罗山是非洲最高的山，高5,895米。 </Final_Answer>

6.0.0.15 示例15

<Question> 太阳系中最大的行星是什么，它的直径是多少？ </Question>
<Thought> 我需要找到太阳系中最大的行星。 </Thought>
<Action>search_internet</Action>
<Action_Input>太阳系中最大的行星</Action_Input>
<Observation>木星是太阳系中最大的行星。 </Observation>
<Thought> 我需要找到木星的直径。 </Thought>
<Action>search_internet</Action>
<Action_Input>木星的直径</Action_Input>
<Observation>木星的直径约为139,820公里。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer>木星是太阳系中最大的行星，直径约为139,820公里。 </Final_Answer>

6.0.0.16 示例16

<Question> 第一架飞机是什么时候飞起来的，它叫什么名字？
</Question>
<Thought> 我需要找到第一架飞起来的飞机的名字。 </Thought>
<Action>search_internet</Action>
<Action_Input>第一架飞起来的飞机</Action_Input>
<Observation> 第一架飞起来的飞机是莱特飞行者号。 </Observation>
<Thought> 我需要找到莱特飞行者号第一次飞行的年份。 </Thought>
<Action>search_internet</Action>
<Action_Input>莱特飞行者号第一次飞行的年份</Action_Input>
<Observation> 莱特飞行者号于1903年首次飞行。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 第一架飞起来的飞机是莱特飞行者号，它于1903年首次飞行。 </Final_Answer>

6.0.0.17 示例17

<Question> 谁画了蒙娜丽莎，这幅画在哪里展出？ </Question>
<Thought> 我需要找到谁画了蒙娜丽莎。 </Thought>
<Action>search_internet</Action>
<Action_Input>画蒙娜丽莎的艺术家</Action_Input>
<Observation> 达芬奇画了蒙娜丽莎。 </Observation>
<Thought> 我需要找到蒙娜丽莎的展出地点。 </Thought>
<Action>search_internet</Action>
<Action_Input>蒙娜丽莎的展出地点</Action_Input>
<Observation> 蒙娜丽莎在巴黎的卢浮宫展出。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 达芬奇画了蒙娜丽莎，这幅画在巴黎的卢浮宫展出。 </Final_Answer>

6.0.0.18 示例18

<Question> 谁赢得了最多的大满贯网球冠军，他/她赢得了多少个？ </Question>
<Thought> 我需要找到赢得最多大满贯冠军的网球运动员。 </Thought>
<Action>search_internet</Action>
<Action_Input>赢得最多大满贯冠军的网球运动员</Action_Input>
<Observation> Novak Djokovic赢得了最多的大满贯冠军。 </Observation>
<Thought> 我需要找到他赢得的大满贯冠军数量。 </Thought>
<Action>search_internet</Action>
<Action_Input>Novak Djokovic赢得的大满贯冠军数量</Action_Input>
<Observation> Novak Djokovic赢得了24个大满贯冠军。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> Novak Djokovic赢得了最多的大满贯网球冠军，共24个。 </Final_Answer>

6.0.0.19 示例19

<Question> 英国历史上在位时间最长的君主是谁，他在位了多少年？ </Question>
<Thought> 我需要找到英国历史上在位时间最长的君主。 </Thought>
<Action>search_internet</Action>
<Action_Input>英国历史上在位时间最长的君主</Action_Input>
<Observation> 女王伊丽莎白二世是英国历史上在位时间最长的君主。 </Observation>
<Thought> 我需要找到她在位了多少年。 </Thought>
<Action>search_internet</Action>
<Action_Input>女王伊丽莎白二世的在位时间长度</Action_Input>
<Observation> 女王伊丽莎白二世在位70年。 </Observation>
<Thought> 是否需要进一步步骤？不需要。 </Thought>
<Action>Done</Action>
<Final_Answer> 女王伊丽莎白二世是英国历史上在位时间最长的君主，她在位70年。 </Final_Answer>

6.0.0.20 示例20

<Question> 莎士比亚的哪部戏剧包含台词“All the world’s a stage”，如果今天是2024年，这部戏剧首次演出距今有多少年？ </Question>
<Thought> 我需要确定莎士比亚哪部戏剧包含台词“All the world’s a stage”。 </Thought>
<Action> search_internet </Action>
<Action_Input> 莎士比亚戏剧 All the world’s a stage </Action_Input>
<Observation> 这句台词来自“As You Like It”。 </Observation>
<Thought> 我需要找到“As You Like It”首次演出的年份。 </Thought>
<Action> search_internet </Action>
<Action_Input> As You Like It首次演出的年份 </Action_Input>
<Observation> “As You Like It”首次演出是在1603年。 </Observation>
<Thought> 我需要计算从1603年到2024年的时间差。 </Thought>
<Action> calculate </Action>
<Action_Input> 2024 - 1603 </Action_Input>
<Observation> 421年。 </Observation>
<Thought> 是否需要使用工具？不需要。 </Thought>
<Action> Done </Action>
<Final_Answer> “As You Like It”包含台词“All the world’s a stage”，并首次演出于1603年，距今421年。 </Final_Answer>

7 相关工作

最近的自然语言处理进展越来越多地将检索与生成相结合，以提升知识密集型任务中的事实准确性。像检索增强生成（RAG）这样的框架动态检索和更新外部知识源（相对于LLM静态预存储参数中的知识） (Lewis et al. 2020) 。提示技术如链式思维（CoT） (Wei et al. 2022) 和ReAct (Yao et al. 2022) 通过推理步骤和工具访问进一步增强了事实性。

闭源、商业搜索引擎已从这种检索技术的成功中崛起。Perplexity在2024年12月获得5亿美元融资后，已定位为领先的LLM支持的搜索引擎 (Perplexity AI, Inc. 2024) 。其他闭源框架在搜索基准测试中表现显著，例如Exa (Bryk 2025) 和 Linkup (Mizrahi 2025) 。

虽然闭源搜索引擎的货币激励是明确的，但不透明系统对用户来说存在缺点，并阻止研究人员在其进展基础上进行构建。生成式搜索引擎充满偏见 (A. Li and Sinnamon 2024) ，容易产生幻觉 (Venkit et al. 2024) ，容易被监控 (Zuboff 2019) ，并且容易提供危险信息 (Luo et al. 2025) 。生成式网络启用搜索是一个新兴领域，由扩展上下文窗口和更好的推理能力推动 (Y. Li et al. 2024) ；随着这种增长，开放源代码研究的责任在于民主化访问并减轻风险。

一些开源努力在设计LLM辅助搜索架构方面取得了可喜的进展。 (Košprdić et al. 2024) 创建了一个信息检索系统，通过微调LLM访问预索引的科学文章。 (Neague et al. 2025) 构建了一个全新的完全去中心化的数据库，使用LLM派生的嵌入（而非访问现有的网络索引），通过语义相似邻居路由查询，实现可扩展的语义搜索。

近期的研究还集中在主动查询网络上，例如 (Chen et al. 2024) ，其利用多代理LLM框架实时增量规划、协调和整合大量现场网络信息。其他研究则为实时互动现场网站带来了多模态维度 (Zheng et al. 2024) 。

Bryk, Will. 2025.

Chen, Zehui, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, 和 Feng Zhao. 2024. “Mindsearch: 模仿人类思维激发出深度AI搜索者。” arXiv Preprint arXiv:2407.20183 .

Chu, Zheng, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, 和 Ting Liu. 2023. “链式思维推理调查：进展、前沿和未来。” arXiv Preprint arXiv:2309.15402 .

DeepSeek. 2025.

Guo, Daya, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, 等人. 2025. “Deepseek-R1: 在LLM中通过强化学习激励推理能力。” arXiv Preprint arXiv:2501.12948 .

Kojima, T., S. S. Gu, M. Reid, Y. Matsuo, 和 Y. Iwasawa. 2022. “大型语言模型是零样本推理者。” Advances in Neural Information Processing Systems 35: 22199–213.

Košprdić, Miloš, Adela Ljajić, Bojana Bašaragin, Darija Medvecki, 和 Nikola Milošević. 2024. “Verif.AI：迈向具有参考和可验证答案的开源科学生成问答系统。” arXiv Preprint arXiv:2402.18589 .

Krishna, Satyapriya, Kalpesh Krishna, Anhad Mohananey, Steven Schwarcz, Adam Stambler, Shyam Upadhyay, 和 Manaal Faruqui. 2024. “事实、获取和推理：统一评估检索增强生成。”

Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Douwe Kiela, 等人. 2020. “检索增强生成用于知识密集型NLP任务。” Advances in Neural Information Processing Systems 33: 9459–74.

Li, Alice, 和 Luanne Sinnamon. 2024. “生成式AI搜索引擎作为公共知识仲裁者：对偏见和权威性的审计。” Proceedings of the Association for Information Science and Technology 61 (1): 205–17.

Li, Chengshu, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, 和 Brian Ichter. 2024. “链式代码：带有语言模型增强代码模拟器的推理。” In International Conference on Machine Learning , 28259–77. PMLR.

Li, Yongqi, Xinyu Lin, Wenjie Wang, Fuli Feng, Liang Pang, Wenjie Li, Liqiang Nie, Xiangnan He, 和 Tat-Seng Chua. 2024. “大规模语言模型时代生成式搜索和推荐调查。” arXiv Preprint arXiv:2404.16924 .

Luo, Zeren, Zifan Peng, Yule Liu, Zhen Sun, Mingchen Li, Jingyi Zheng, 和 Xinlei He. 2025. “新兴AI驱动搜索引擎的上升威胁。” arXiv Preprint arXiv:2502.04951 .

Lv, Weijie, Xuan Xia, 和 Sheng-Jun Huang. 2024. “CodeACT：代码自适应高效调优框架适用于代码LLM。” arXiv e-Prints , arXiv–2408.

Mizrahi, Philippe. 2025.

Neague, Petru, Quinten Stokkink, Naman Goel, 和 Johan Pouwelse. 2025. “Semantica：使用LLM引导的语义树覆盖的去中心化搜索。” arXiv Preprint arXiv:2502.10151 .

OpenAI. 2025b.

———. 2025a.

OpenPerplex. 2024.

Perplexica. 2024.

Perplexity AI, Inc. 2024. “Perplexity AI .” https://www.perplexity.ai .

PerplexityAI. 2025b.

———. 2025a.

Robertson, Stephen E, Steve Walker, Susan Jones, Micheline M Hancock-Beaulieu, Mike Gatford, 等人. 1995. “TREC-3中的Okapi。” Nist Special Publication Sp 109: 109.

Roucher, Aymeric, Albert Villanova del Moral, Thomas Wolf, Leandro von Werra, 和 Erik Kaunismäki. 2025. “‘Smolagents’：一个构建伟大代理系统的简单库。” https://github.com/huggingface/smolagents .

Venkit, Pranav Narayanan, Philippe Laban, Yilun Zhou, Yixin Mao, 和 Chien-Sheng Wu. 2024. “AI时代的搜索引擎：事实性和可验证来源引用响应的虚假承诺。” arXiv Preprint arXiv:2410.22349 .

Vu, Tu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, 等人. 2023. “FreshLLMs：通过搜索引擎增强刷新大型语言模型。” https://arxiv.org/abs/2310.03214 .

Wang, Lei, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, 等人. 2024. “基于大规模语言模型的自主代理调查。” Frontiers of Computer Science 18 (6): 186345.

Wang, Xuezhi, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, 和 Denny Zhou. 2022. “自一致性改进了语言模型中的链式思维推理。” arXiv Preprint arXiv:2203.11171 .

Wei, Jason, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, 和 William Fedus. 2024. “衡量大规模语言模型中的简短形式事实性。” arXiv Preprint arXiv:2411.04368 .

Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, 和 Denny Zhou. 2022. “链式思维提示激发大规模语言模型中的推理。” Advances in Neural Information Processing Systems 35: 24824–37.

xAI. 2025.

Yao, Shinnosuke, Joshua Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, 和 Yunzhu Cao. 2022. “ReAct：协同推理和行动的语言模型框架。” arXiv Preprint arXiv:2210.03629 .

Zheng, Boyuan, Boyu Gou, Jihyung Kil, Huan Sun, 和 Yu Su. 2024. “GPT-4V（Ision）是一种通用网络代理，如果落地。” arXiv Preprint arXiv:2401.01614 .

Zuboff, Shoshana. 2019. “监控资本主义时代：为人类未来而战的新权力前沿。” PublicAffairs, New York .

原论文：https://arxiv.org/pdf/2503.2020