【AI大模型】从字节、百川、Bespoke Labs 3个大模型项目，看RL驱动下的Agent技术趋势-CSDN博客

本文链接：https://blog.csdn.net/2401_85327249/article/details/147731434

前言

Agent的技术线路目前看业界大概两个方向：

一类是模型厂商目标是把Agent能力内化到一套模型里去解决问题，让模型能力极大增强；
另一类是Agent应用厂商，比如Manus、SparkGen，开源项目Agent S/S2等，考虑的方案是在用工程化方案，采用模块化架构，在核心模型之外构建独立的推理与工具调用能力。

我的浅显观点是Agent能力内化到模型里的技术方案能力上限应该更高，比如OpenAI的Deep Research，其实是一套端到端的Agent训练出来的产品，能力比起市面上模块化组合能力的Agent，能力都要强不少。

为什么这么说呢？模块化组合技术是分块考虑目标，分块的逻辑依赖人的设计，可以快速组合各种最强能力迅速达到效果，短中期最优，但最终智能水平受限于人类工程师的分模块设计能力，在人定义边界，机器在边界内执行，灵活性、泛化、自主演化非常有限。

而端到端的RL，任务的理解、推理、规划、执行、总结全部在统一参数空间下学习，理论上可以做到“完全自主演化”，遇到新环境、新任务可以靠自学快速适应，不需要人手干预，能够内生出复杂的认知能力，具备真正的通用性。当然因为训练端到端Agent需要同时解决感知-推理-规划-执行-反思等一整条链路，所以工程难度也非常高，估计最后也就是少数几家模型大厂可以达成。

正如RL教父DeepMind Richard S. Sutton写的：在人工智能的70年历史中，一个重复出现的教训是：“一般的方法——即那些不依赖于人工智能问题的具体知识的方法——最终会战胜那些依赖于这种知识的方法“（见《The Bitter Lesson[1]》）。通过整体目标来做RL考虑的Agent体系，天花板才足够高。

看看几个模型厂商最近的几篇相关论文，字节跳动的《ReTool: Reinforcement Learning for Strategic Tool Use in LLMs》、百川的《ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning》到升级的ReCall、以及Bespoke Labs的《Improving Multi-Turn Tool Use with Reinforcement Learning》都是如何让语言模型学会在推理过程中自主调用外部工具这个方向上的工作。

这篇文章聊聊它们各自到底做了什么，背后的共同逻辑是什么，具体实现方式又有哪些差异，最后再和OpenAI的Deep Research对比一下，看看开源社区和工业界的方向是否一致。

字节跳动的ReTool：让模型在数学题里写代码算数

论文链接：https://arxiv.org/abs/2504.11536

字节跳动Seed团队聚焦于“语言模型+代码解释器”这一数学推理场景。纯文本链式思考在精确计算任务上易积累误差，字节团队就想，能不能让模型自己在推理中调用Python解释器，把复杂的计算交给代码。论文而提出一种“思考-执行-反馈”交错的两阶段训练范式：先用合成示例做冷启动微调，教会模型最基本的代码调用格式与语义；继而只用最终答案正确与否作奖励，引入 PPO 强化学习优化何时调用、调用什么及如何纠错。

训练结果显示模型不仅显著提高了 AIME 等奥数基准的正确率，还自然涌现“代码自我修正”与简洁化推理等元认知行为，训练后的模型能够自己改代码。比如第一次写的代码有问题，解释器返回一个报错信息（比如未定义函数），模型下一步就能自动识别出问题，重新写一遍代码，直到通过。这点其实现在用Claude3.7就已经涌现这样的能力，之前测试Claude based的Agent在一些场景可以不依赖流程干预，自主的去做代码调试、测试和验收。

ReTool 的贡献在于证明：在符号计算密集场景里，将可执行工具嵌入推理链并用结果驱动强化学习，可让 LLM 同时获得严密性与高效性。

百川的ReSearch到ReCall：从检索到多工具的自主编排

ReSearch：https://arxiv.org/abs/2503.19470
ReCall：https://github.com/Agent-RL/ReCall

是百川智能最初发布的工作，面向多跳问答任务，让模型在推理过程中自主决定何时检索、如何检索、如何利用检索结果，比如问“某家公司成立那年，美国总统是谁”，模型必须先查公司成立的年份，再用这个年份去查对应的总统。

作者把推理轨迹格式化为循环，以GRPO算法在无标注情况下仅凭答案正确给予奖励。训练过程中，模型展现出自发反思与二次检索的能力，大幅超越传统RAG + CoT。在此基础上，百川在后续版本ReCall中进一步把“Search”扩展成统一的“Tool Call”接口，允许调用数据库、API、执行引擎等任意外部能力，并构建更复杂的合成环境以训练“多工具-多步”推理。

由此，ReSearch 到 ReCall 的演进把动态检索范式推广到了真正的通用工具编排与决策层面，为构建通用智能体奠定了框架。

Bespoke Labs：多轮对话场景下的工具调用和记忆传递

https://www.bespokelabs.ai/blog/improving-multi-turn-tool-use-with-reinforcement-learning

选取最贴近真实业务的多轮对话场景，用极小数据集和极简奖励教模型学会跨回合串联多种工具。团队在 BFCL 基准构造了 200 条训练任务，只要最终环境状态检查通过就给奖励 1，否则 0；配合 GRPO、轻量 KL 正则和 Overlong Filtering 等工程技巧，即便数据量小仍保持稳定学习。实验表明，模型能够先查机场再查票价、最终完成预订，真正理解工具间依赖关系。

该工作强调：即使在资源受限场景，只要设计好奖励与稳定化策略，也能快速获得可部署的多工具编排智能体。

总结

这三篇论文思路一致，内化工具调用，用最简单的奖励信号（只看最终结果对错）来驱动强化学习，让模型自己决定什么时候调用工具、调用哪个工具，以及怎样用工具返回的信息。这种方法不依赖于人工示范或精细的中间步骤奖励，反而更有效地避免了模型reward hacking的现象出现。Less is More for Reward Design，是目前的reward一大趋势，这样训练比较容易训练稳定，不容易被hack。但是单一的结果reward会变得太稀疏、太延迟，训练效率低，这也是目前的一些问题。

在训练稳定性方面，三篇论文的一些小技巧：如极小幅度的KL散度约束、周期性更新参考模型、以及对异常输出的严格过滤（例如超长或乱码输出直接截断不计损失）。模型经过训练后普遍涌现了一些aha行为，比如ReTool中自动修改代码，ReSearch和ReCall中反复检索，Bespoke中跨回合准确记忆参数。这种能力的出现说明，在真实反馈的环境中，即使只有最简单的终局奖励，也足够驱动模型发展出复杂的工具使用策略。

OpenAI在Deep Research项目中也采取了类似的方式，用强化学习让语言模型调用浏览器、Python脚本、PDF解析工具等外部接口，奖励也主要根据生成的最终报告质量由GPT自动判断（纯根据信息猜测）。与社区论文的最大区别在于规模和工具的丰富程度，OpenAI使用了更多、更复杂的工具、更长的任务链，并且end2end的agent训练方案。其实现在除了deep research，o家的o3、a家的claude、g家的gemini，你用起来都可以看到模型中已经内置了边想边试的能力。大家的核心思想和训练框架其实高度一致：用最简单的终极奖励，让模型在真实环境中自主学习工具调用策略。

让模型拥有自主管理外部能力、具备计划-执行-反思闭环的通用智能体，Tools-RL一定是这条进化路线的关键。