强化学习工具调用新突破!OTC如何优化大模型工具调用效率?

在大语言模型(LLMs)蓬勃发展的今天,工具集成推理(TIR)成为提升其能力的关键路径。但现有方法在工具使用效率上问题重重。这篇论文提出的OTC-PO框架,能让模型精准控制工具调用,大幅提升效率,快来一探究竟!

论文标题
OTC: Optimal Tool Calls via Reinforcement Learning
来源
arXiv:2504.14870v1 [cs.AI] 21 Apr 2025
https://arxiv.org/abs/2504.14870

文章核心

研究背景

大语言模型(LLMs)通过强化学习(RL)进行微调后展现出强大推理能力,但面对需要外部交互的任务,其内部推理能力不足。工具集成推理(TIR)成为解决该问题的有效范式,使LLMs能借助外部工具拓展功能。

研究问题

  1. 现有基于RL优化TIR的方法,常忽略工具使用的效率和成本。频繁且不必要的工具调用会增加计算和时间开销,还可能导致模型过度依赖外部工具,限制内部推理能力发展。

  2. 仅优化答案准确性,会忽视单个工具使用的成本和有效性,出现工具过度使用或使用不足的情况,影响推理效果。

  3. 监督微调(SFT)通常对不同的模型-问题对执行统一策略,无法适应不同模型和问题对工具调用需求的差异。

主要贡献

1. 系统解决工具效率问题:首次通过RL系统性地解决工具效率问题,识别出LLMs在TIR中的认知卸载现象,引入工具生产率概念衡量TIR的有效性和效率。

2. 提出OTC-PO算法:基于每个问题和模型对存在最优工具调用次数的观察,提出简单、可扩展且通用的OTC-PO算法,能与多种RL算法兼容,仅需少量代码修改即可实现。

3. 实现并验证新方法:实现了OTC-PPO和OTC-GRPO两种典型方法,在多个基准测试和基线实验中,显著降低工具调用成本,同时在域内和域外评估中保持较高准确率。

方法论精要

1. 核心算法/框架:Optimal Tool Call-controlled Policy Optimization(OTC-PO)框架,该框架可与多种RL算法结合,通过设计新的奖励机制优化工具调用策略。

2. 关键参数设计原理:引入工具集成奖励,通过缩放系数反映工具效率来调整传统奖励信号。在OTC-PPO中,根据当前轨迹中工具调用次数(m)设计工具奖励 r t o o l = c o s ( m ∗ π 2 m + c ) r_{tool }=cos \left(\frac{m * \pi}{2 m+c}\right) rtool=cos(2m+cmπ) c c c为控制奖励衰减率的平滑常数;在OTC-GRPO中,根据当前轨迹工具调用次数 m m m和近似最优工具调用次数 n n n设计奖励,当 n = 0 n = 0 n=0 m = 0 m = 0 m=0 r t o o l = 1 r_{tool } = 1 rtool=1 ,其他情况按不同公式计算。

3. 创新性技术组合:将工具集成奖励与传统奖励函数相乘,构建最终工具集成奖励函数 r ϕ t o o l ( q , y ) = α ∗ r t o o l ∗ r ϕ ( q , y ) r_{\phi}^{tool }(q, y)=\alpha * r_{tool } * r_{\phi}(q, y) rϕtool(q,y)=αrtoolrϕ(q,y) α \alpha α为超参数。这种设计在保证答案正确时,鼓励模型减少工具使用,避免reward hack问题。

4. 实验验证方式:使用NQ、HotpotQA等数据集进行搜索任务实验,使用ToRL提供的数据集进行代码任务实验。对比基线包括SFT、Base-RL、RAG、IRCoT、Search-R1和ToRL等方法,通过精确匹配(EM)、平均工具调用次数(TC)和新定义的工具生产率(TP)等指标评估模型性能。

实验洞察

1. 性能优势:在搜索任务中,与Search-R1相比,OTC-PPO和OTC-GRPO显著降低TC并提高TP。如在Qwen2.5-7B-Base模型的NQ数据集上,OTC-GRPO的TC降低69.8%,TP提高229.4%;在HotpotQA数据集上,OTC-GRPO的TC降低73.1%,TP提高256.9%,且在大模型上能保持较高EM分数。

2. 效率突破:训练时,OTC-PO方法使用更少工具调用和更短响应,训练优化更快更高效,减少训练中实时工具交互的时间和成本。推理时,在多数测试用例中,OTC-PO能用更少工具调用得到与基线相同的答案,在约90%的测试用例中展现出效果和效率的平衡。

3. 消融研究:通过对比不同模型在不同数据集上的工具使用行为,发现随着模型规模增大,若不加以惩罚,模型倾向于过度依赖外部工具调用。同时,通过分析工具过度使用和使用不足的情况,验证了OTC-PO在控制工具调用数量上的有效性。

END: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值