【AI大模型】从字节、百川、Bespoke Labs 3个大模型项目,看RL驱动下的Agent技术趋势

前言

Agent的技术线路目前看业界大概两个方向:

  • 一类是模型厂商目标是把Agent能力内化到一套模型里去解决问题,让模型能力极大增强;
  • 另一类是Agent应用厂商,比如Manus、SparkGen,开源项目Agent S/S2等,考虑的方案是在用工程化方案,采用模块化架构,在核心模型之外构建独立的推理与工具调用能力。

我的浅显观点是Agent能力内化到模型里的技术方案能力上限应该更高,比如OpenAI的Deep Research,其实是一套端到端的Agent训练出来的产品,能力比起市面上模块化组合能力的Agent,能力都要强不少。

为什么这么说呢?模块化组合技术是分块考虑目标,分块的逻辑依赖人的设计,可以快速组合各种最强能力迅速达到效果,短中期最优,但最终智能水平受限于人类工程师的分模块设计能力,在人定义边界,机器在边界内执行,灵活性、泛化、自主演化非常有限。

而端到端的RL,任务的理解、推理、规划、执行、总结全部在统一参数空间下学习,理论上可以做到“完全自主演化”,遇到新环境、新任务可以靠自学快速适应,不需要人手干预,能够内生出复杂的认知能力,具备真正的通用性。当然因为训练端到端Agent需要同时解决感知-推理-规划-执行-反思等一整条链路,所以工程难度也非常高,估计最后也就是少数几家模型大厂可以达成。

正如RL教父DeepMind Richard S. Sutton写的:在人工智能的70年历史中,一个重复出现的教训是:“一般的方法——即那些不依赖于人工智能问题的具体知识的方法——最终会战胜那些依赖于这种知识的方法“(见《The Bitter Lesson[1]》)。通过整体目标来做RL考虑的Agent体系,天花板才足够高。

图片

看看几个模型厂商最近的几篇相关论文,字节跳动的《ReTool: Reinforcement Learning for Strategic Tool Use in LLMs》、百川的 《ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning》到升级的ReCall、以及Bespoke Labs的《Improving Multi-Turn Tool Use with Reinforcement Learning》都是如何让语言模型学会在推理过程中自主调用外部工具这个方向上的工作。

这篇文章聊聊它们各自到底做了什么,背后的共同逻辑是什么,具体实现方式又有哪些差异,最后再和OpenAI的Deep Research对比一下,看看开源社区和工业界的方向是否一致。

字节跳动的ReTool:让模型在数学题里写代码算数

论文链接:https://arxiv.org/abs/2504.11536

字节跳动Seed团队聚焦于“语言模型+代码解释器”这一数学推理场景。纯文本链式思考在精确计算任务上易积累误差,字节团队就想,能不能让模型自己在推理中调用Python解释器,把复杂的计算交给代码。论文而提出一种“思考-执行-反馈”交错的两阶段训练范式:先用合成示例做冷启动微调,教会模型最基本的代码调用格式与语义;继而只用最终答案正确与否作奖励,引入 PPO 强化学习优化何时调用、调用什么及如何纠错。

训练结果显示模型不仅显著提高了 AIME 等奥数基准的正确率,还自然涌现“代码自我修正”与简洁化推理等元认知行为,训练后的模型能够自己改代码。比如第一次写的代码有问题,解释器返回一个报错信息(比如未定义函数),模型下一步就能自动识别出问题,重新写一遍代码,直到通过。这点其实现在用Claude3.7就已经涌现这样的能力,之前测试Claude based的Agent在一些场景可以不依赖流程干预,自主的去做代码调试、测试和验收。

ReTool 的贡献在于证明:在符号计算密集场景里,将可执行工具嵌入推理链并用结果驱动强化学习,可让 LLM 同时获得严密性与高效性

图片

百川的ReSearch到ReCall:从检索到多工具的自主编排

ReSearch:https://arxiv.org/abs/2503.19470
ReCall:https://github.com/Agent-RL/ReCall

是百川智能最初发布的工作,面向多跳问答任务,让模型在推理过程中自主决定何时检索、如何检索、如何利用检索结果,比如问“某家公司成立那年,美国总统是谁”,模型必须先查公司成立的年份,再用这个年份去查对应的总统。

作者把推理轨迹格式化为循环,以GRPO算法在无标注情况下仅凭答案正确给予奖励。训练过程中,模型展现出自发反思与二次检索的能力,大幅超越传统RAG + CoT。在此基础上,百川在后续版本ReCall中进一步把“Search”扩展成统一的“Tool Call”接口,允许调用数据库、API、执行引擎等任意外部能力,并构建更复杂的合成环境以训练“多工具-多步”推理。

由此,ReSearch 到 ReCall 的演进把动态检索范式推广到了真正的通用工具编排与决策层面,为构建通用智能体奠定了框架

图片

Bespoke Labs:多轮对话场景下的工具调用和记忆传递

https://www.bespokelabs.ai/blog/improving-multi-turn-tool-use-with-reinforcement-learning

选取最贴近真实业务的多轮对话场景,用极小数据集和极简奖励教模型学会跨回合串联多种工具。团队在 BFCL 基准构造了 200 条训练任务,只要最终环境状态检查通过就给奖励 1,否则 0;配合 GRPO、轻量 KL 正则和 Overlong Filtering 等工程技巧,即便数据量小仍保持稳定学习。实验表明,模型能够先查机场再查票价、最终完成预订,真正理解工具间依赖关系。

该工作强调:即使在资源受限场景,只要设计好奖励与稳定化策略,也能快速获得可部署的多工具编排智能体。

图片

总结

这三篇论文思路一致,内化工具调用,用最简单的奖励信号(只看最终结果对错)来驱动强化学习,让模型自己决定什么时候调用工具、调用哪个工具,以及怎样用工具返回的信息。这种方法不依赖于人工示范或精细的中间步骤奖励,反而更有效地避免了模型reward hacking的现象出现。Less is More for Reward Design,是目前的reward一大趋势,这样训练比较容易训练稳定,不容易被hack。但是单一的结果reward会变得太稀疏、太延迟,训练效率低,这也是目前的一些问题。

在训练稳定性方面,三篇论文的一些小技巧:如极小幅度的KL散度约束、周期性更新参考模型、以及对异常输出的严格过滤(例如超长或乱码输出直接截断不计损失)。模型经过训练后普遍涌现了一些aha行为,比如ReTool中自动修改代码,ReSearch和ReCall中反复检索,Bespoke中跨回合准确记忆参数。这种能力的出现说明,在真实反馈的环境中,即使只有最简单的终局奖励,也足够驱动模型发展出复杂的工具使用策略。

OpenAI在Deep Research项目中也采取了类似的方式,用强化学习让语言模型调用浏览器、Python脚本、PDF解析工具等外部接口,奖励也主要根据生成的最终报告质量由GPT自动判断(纯根据信息猜测)。与社区论文的最大区别在于规模和工具的丰富程度,OpenAI使用了更多、更复杂的工具、更长的任务链,并且end2end的agent训练方案。其实现在除了deep research,o家的o3、a家的claude、g家的gemini,你用起来都可以看到模型中已经内置了边想边试的能力。大家的核心思想和训练框架其实高度一致:用最简单的终极奖励,让模型在真实环境中自主学习工具调用策略

让模型拥有自主管理外部能力、具备计划-执行-反思闭环的通用智能体,Tools-RL一定是这条进化路线的关键

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值