【toollearning论文系列4】StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LL

StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs

为了增强 LLM 的工具学习能力,大多数方法都依赖于监督微调(SFT)。尽管 SFT 的实现很简单,但在训练 LLM 进行工具学习时遇到了两个关键限制。首先,模仿静态的预定义工具序列限制了模型适应新任务或环境的能力。其次,专家轨迹虽然可以成功完成任务,但可能不是工具调用的最佳顺序。盲目模仿这些轨迹会导致任务解决性能欠佳。

微调模型的方法还有RLHF,在强化学习视角下,工具调用的每个步骤都被视为导致状态转换的操作,并且模型是从操作-状态转换中训练的。然而,由于几个关键挑战,这些方法并不适合工具学习:1) 工具学习涉及多个决策步骤和来自外部工具和环境的实时反馈。相比之下,RLHF 是基于单步的,数学推理任务中的步骤由 LLM 本身生成,没有来自环境的反馈。2) 工具学习中每个步骤的奖励更为复杂,因为它不仅要考虑工具调用的成功,还要考虑它对任务完成的贡献。

本文是从RLHF出发,提出 StepTool,这种方法确保了对动态、多步骤交互的适应性,解决了 RLHF 等单步方法的局限性。

下面看这个模型的架构,图一左侧展示了一个toollearning的实际场景,右侧展示了监督微调和steptool:

StepTool 的核心思想是通过多步骤的优化和奖励设计,使得模型能够更好地处理需要与外部工具交互的任务。StepTool的架构包括两个主要组件:步骤级奖励塑造(Step-grained Reward Shaping)和步骤级优化(Step-grained Optimization),如下图。

建模

首先,公式化tool Learning的流程:本文将tool Learning建模为一个多步骤决策问题,它可以表述为马尔可夫决策过程,由一个元组组成M=(S,A,P,R,\gamma )

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值