超越博士生水平的开源“Agentic Reasoning” 效果超越Google Deep Research(附项目代码)

本文链接：https://blog.csdn.net/Python_cocola/article/details/146112908

导读

最近很多的工作都和Deep Research比较类似, 都是需要大模型进行复杂的思考推理和规划，并运用工具来完成一个最终的工作。

这里介绍一个牛津大学发布的deep research的替代品: Agentic Reasoning, 号称效果已经超过了Google的Deep Research。

阅读本文，你能够收获:

Agentic Reasonging框架的功能和使用方法。
Agentic Reasoning的所有源码

Deep Research

随着谷歌发布了一个LLM代理 Deep Research，该项技术可以完成非常复杂的调研任务, 这一趋势很快被OpenAI和Perplexity跟进

现在，又出现了一个效果比较好的方案，而且它是开源的。

来自牛津大学的研究人员团队刚刚发布了一个名为Agentic Reasoning的框架，该框架使用外部工具来使用LLM代理解决需要深入研究的多步逻辑问题

这个框架的效果出奇的好，以至于它在博士级科学推理（GPQA）和特定领域的深入研究任务上都超过了领先的RAG系统和封闭源LLM

该框架甚至在金融、医学和法律等多个开放式问答任务中击败了谷歌Gemini Deep research.

以下是该框架的具体技术，实现细节介绍。

Agentic Reasoning

像OpenAI o1和DeepSeek R1这样的推理LLM已经通过强化学习在大规模的思维链推理数据上进行了训练

虽然这些模型在数学和编码问题上表现良好（其中解决方案很容易验证），非常多的领域，如伦理学和社会科学，他们的效果仍然没有那么好，仍然需要持续的提升和改进。因为涉及复杂和抽象的社会和道德推理。

人通过信息收集（使用互联网）、定量分析（使用计算工具）和组织思维（在白板上）的推理方法, 这种方法其实是我们可以很好的参考的。

这就是Agentic Reasoning背后的逻辑:

传统agents直接使用外部工具收集数据并进行计算，而代理推理框架使用外部基于LLM的代理作为工具

在这个框架中基本上使用了三个代理:

网络搜索代理：从互联网获取信息
coding代理：帮助使用Python代码进行计算
“思维导图”或记忆代理：根据推理上下文构建知识图谱

一个推理LLM监督和指导这些代理，收集它们的输出并使用这些来推理，从而得出最终答案。

我对这个框架进行数学建模如下:

给定一个多步推理查询（q），目标是生成：

一个逻辑推理链（r）
一个最终答案（a）

为此，具有给定任务说明（o）的推理LLM与用作工具的外部代理进行交互，以获取有价值的输出（e），以及持有推理记忆的代理（k）。

目标可以总结如下:

给定输入（o，q，e，k），推理LLM生成推理链r和最终答案a的概率由以下公式给出:

推理LLM从任务说明（o）和查询（q）开始，并实时决定是否需要更多外部信息。

在推理过程中，它使用专门的标记来请求外部LLM代理的帮助。

这些token包括：

网络搜索标记
编码标记
思维导图调用标记

当检测到任何这些标记时，模型会暂停推理，并生成一个特定的查询以及推理上下文作为消息发送给适当的Agentic LLM

适当的代理LLM处理此请求，并将此响应集成到推理链中。

这个过程迭代进行，直到推理模型达到完全推理的最终答案。

Agentic Reasoning的组成部分

既然我们已经知道了整体框架是如何工作的，让我们更详细地了解每个LLM代理是如何工作的。

网络搜索代理

该 Agent使用工具执行网络搜索并检索相关文档。

与直接使用原始网页不同，这些网页首先经过处理和过滤，然后提取最相关的内容并动态集成到推理链中。相当于在该agent内部，他自己也完成了非常多自主的工作。

Coding代理

根据LLM的消息推理，用户查询和思维导图中的推理上下文，该代理生成代码，使用编译器执行并以自然语言返回结果。

这样可以轻松将响应集成到推理链中。

思维导图代理

该代理将推理上下文结构化并存储为结构化知识图谱。

这种方法借鉴了一项先前的ArXiv研究，该研究首先使用社区聚类将推理上下文分成不同的组，并使用LLM为每个组生成摘要。

然后可以使用RAG查询生成的知识图谱来检索相关信息。如果你对graph rag比较熟悉，那你会比较熟悉下边这个图。

思维导图代理在查询过程中作为推理LLM和其他代理的记忆。

Agentic Reasoning的优势

可以看到，在框架中仅使用少量的代理工具会产生最佳结果。

这是因为增加更多工具会增加推理LLM在解决问题时选择错误工具的风险。

由于工具输出的不准确性也会累积错误，这可能导致最终的响应不正确。

接下来，将任务委托给多个LLM代理会减少推理LLM的“认知负荷”，使其能够专注于其核心任务，而不是自己执行所有任务。

委托还确保为每个任务使用表现最佳的LLM（例如，用于推理的DeepSeek-R1和用于编码的Claude-Sonnet），从而增强整体性能。这也相当于是让擅长的人干擅长的事儿。

还可以看到，使用更多工具会导致单个问题的更好推理。

然而，跨不同问题的许多工具调用并不一定是一件好事，因为它们表明模型的初始推理可能存在缺陷，导致最终答案不够准确。

实验效果数据

实验表明，与其他经过RL训练的开源/闭源推理LLM和RAG增强的LLM相比， Agentic Reasoning在GPQA数据集的Diamond集上表现是最好的。

该数据集包括物理、化学和生物学的博士级选择题，其Diamond集包括这些学科中最具挑战性的198个问题。

该数据集的扩展集中还有546个问题，该框架在这个集合中的大多数学科中比人类专家的准确性更高。

接下来，代理推理在需要深入研究的金融、医学和法律领域的开放式、知识密集型问答任务上进行了测试。

这些学科的博士专家制定了15-30个这样的问题。

每个问题需要至少20分钟的深入人类专家研究才能回答得好。

Agentic Reasonging在这些来自三个学科的所有问题上都优于Gemini深度研究，

当涉及解决复杂问题时，AI Agentic Reasoning都将是一类比较重要的方法

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述