探索Agent工具调用时的高熵时刻

速通这篇论文:

1.Agent 工具调用后的高熵时刻

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几个发现:

  1. 工具调用完拼接工具结果后,继续生成的10-50个token的熵急剧增加
  2. 在推理的早期熵也会增加,但是仍低于工具调用后的熵

2. 论文动机

  1. PPO、GRPO等方法从Trajectory的粒度优化Agent工具调用行为,忽略了关键时刻——工具调用的时刻,存在工具调用次数多、低效等问题。

  2. 工具调用后不确定性增加

    1. 工具调用完拼接工具结果后,继续生成的10-50个token的熵急剧增加
    2. 在推理的早期熵也会增加,但是仍低于工具调用后的熵
  3. 工具调用后熵增恰是模型推理的关键分叉点。此时模型可以探索多样化的工具路径(如是否继续调用工具、调用哪种工具),找到最优策略。轨迹级采样未针对高熵步骤分配额外探索资源,导致模型无法有效挖掘这一阶段的潜在有效行为。

3. 论文方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.1 ENTROPY-BASED ADAPTIVE ROLLOUT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
基于熵的自适应Rollout,简单来说,就是在rollout的过程中,并不是一次性rollout到结束,而是在工具调用节点进行判断,是否进行分支。

  1. 先初始化一些rollout直至第一次工具调用
  2. 计算每个rollout前k个token的熵
  3. 继续生成,在每次工具调用后继续生成k个token,并计算熵,根据当前熵判断是否产生分支还是继续生成
  4. 最终得到多个rollout,其中一些rollout会存在共享的节点

3.2 ADVANTAGE ATTRIBUTION ESTIMATION

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
优势归因估计,上一步产生了大量具有“共同前缀+不同分支”结构的rollouts。如何将奖励分配给rollout上的不同节点以区分它们的重要性呢?论文提出了两种方法:

  1. Hard Advantage Estimation
    共享、独占 token的优势独立计算
  2. Soft Advantage Estimation。通过重要性采样区分共享和独占tokens
    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4. 实验

一般的实验对比自然不用说了,肯定是有提升的,如下图所示。
有一个有趣的点,可以看到Webthinker-14B在HLE这个测试集上表现的尤其好啊,可以体验一下~
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
在效果提升的同时,也可以看到模型工具使用效率相比GRPO下降了一半,这点还是不错了,提升了Agent完成任务的效率。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值