探索Agent工具调用时的高熵时刻

最新推荐文章于 2025-11-13 00:33:54 发布

原创最新推荐文章于 2025-11-13 00:33:54 发布 · 908 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型 #Agent

论文专栏收录该内容

7 篇文章

订阅专栏

AGENTIC REINFORCED POLICY OPTIMIZATION

速通这篇论文：

1.Agent 工具调用后的高熵时刻

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几个发现：

工具调用完拼接工具结果后，继续生成的10-50个token的熵急剧增加
在推理的早期熵也会增加，但是仍低于工具调用后的熵

2. 论文动机

PPO、GRPO等方法从Trajectory的粒度优化Agent工具调用行为，忽略了关键时刻——工具调用的时刻，存在工具调用次数多、低效等问题。
工具调用后不确定性增加
1. 工具调用完拼接工具结果后，继续生成的10-50个token的熵急剧增加
2. 在推理的早期熵也会增加，但是仍低于工具调用后的熵
工具调用后熵增恰是模型推理的关键分叉点。此时模型可以探索多样化的工具路径（如是否继续调用工具、调用哪种工具），找到最优策略。轨迹级采样未针对高熵步骤分配额外探索资源，导致模型无法有效挖掘这一阶段的潜在有效行为。

3. 论文方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.1 ENTROPY-BASED ADAPTIVE ROLLOUT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
基于熵的自适应Rollout，简单来说，就是在rollout的过程中，并不是一次性rollout到结束，而是在工具调用节点进行判断，是否进行分支。

先初始化一些rollout直至第一次工具调用
计算每个rollout前k个token的熵
继续生成，在每次工具调用后继续生成k个token，并计算熵，根据当前熵判断是否产生分支还是继续生成
最终得到多个rollout，其中一些rollout会存在共享的节点

3.2 ADVANTAGE ATTRIBUTION ESTIMATION

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
优势归因估计，上一步产生了大量具有“共同前缀+不同分支”结构的rollouts。如何将奖励分配给rollout上的不同节点以区分它们的重要性呢？论文提出了两种方法：

Hard Advantage Estimation
共享、独占 token的优势独立计算
Soft Advantage Estimation。通过重要性采样区分共享和独占tokens

4. 实验

一般的实验对比自然不用说了，肯定是有提升的，如下图所示。
有一个有趣的点，可以看到Webthinker-14B在HLE这个测试集上表现的尤其好啊，可以体验一下~
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
在效果提升的同时，也可以看到模型工具使用效率相比GRPO下降了一半，这点还是不错了，提升了Agent完成任务的效率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。