强化学习工具调用新突破！OTC如何优化大模型工具调用效率？-CSDN博客

本文链接：https://blog.csdn.net/PAN_Andy/article/details/147665751

在大语言模型（LLMs）蓬勃发展的今天，工具集成推理（TIR）成为提升其能力的关键路径。但现有方法在工具使用效率上问题重重。这篇论文提出的OTC-PO框架，能让模型精准控制工具调用，大幅提升效率，快来一探究竟！

论文标题
OTC: Optimal Tool Calls via Reinforcement Learning
来源
arXiv:2504.14870v1 [cs.AI] 21 Apr 2025
https://arxiv.org/abs/2504.14870

文章核心

研究背景

大语言模型（LLMs）通过强化学习（RL）进行微调后展现出强大推理能力，但面对需要外部交互的任务，其内部推理能力不足。工具集成推理（TIR）成为解决该问题的有效范式，使LLMs能借助外部工具拓展功能。

研究问题

现有基于RL优化TIR的方法，常忽略工具使用的效率和成本。频繁且不必要的工具调用会增加计算和时间开销，还可能导致模型过度依赖外部工具，限制内部推理能力发展。
仅优化答案准确性，会忽视单个工具使用的成本和有效性，出现工具过度使用或使用不足的情况，影响推理效果。
监督微调（SFT）通常对不同的模型-问题对执行统一策略，无法适应不同模型和问题对工具调用需求的差异。

主要贡献

1. 系统解决工具效率问题：首次通过RL系统性地解决工具效率问题，识别出LLMs在TIR中的认知卸载现象，引入工具生产率概念衡量TIR的有效性和效率。

2. 提出OTC-PO算法：基于每个问题和模型对存在最优工具调用次数的观察，提出简单、可扩展且通用的OTC-PO算法，能与多种RL算法兼容，仅需少量代码修改即可实现。

3. 实现并验证新方法：实现了OTC-PPO和OTC-GRPO两种典型方法，在多个基准测试和基线实验中，显著降低工具调用成本，同时在域内和域外评估中保持较高准确率。

方法论精要

1. 核心算法/框架：Optimal Tool Call-controlled Policy Optimization（OTC-PO）框架，该框架可与多种RL算法结合，通过设计新的奖励机制优化工具调用策略。

2. 关键参数设计原理：引入工具集成奖励，通过缩放系数反映工具效率来调整传统奖励信号。在OTC-PPO中，根据当前轨迹中工具调用次数(m)设计工具奖励 $r_{tool }=cos \left(\frac{m * \pi}{2 m+c}\right)$ ， $c$ 为控制奖励衰减率的平滑常数；在OTC-GRPO中，根据当前轨迹工具调用次数 $m$ 和近似最优工具调用次数 $n$ 设计奖励，当 $n = 0$ 且 $m = 0$ 时 $r_{tool } = 1$ ，其他情况按不同公式计算。

3. 创新性技术组合：将工具集成奖励与传统奖励函数相乘，构建最终工具集成奖励函数 $r_{\phi}^{tool }(q, y)=\alpha * r_{tool } * r_{\phi}(q, y)$ ， $\alpha$ 为超参数。这种设计在保证答案正确时，鼓励模型减少工具使用，避免reward hack问题。

4. 实验验证方式：使用NQ、HotpotQA等数据集进行搜索任务实验，使用ToRL提供的数据集进行代码任务实验。对比基线包括SFT、Base-RL、RAG、IRCoT、Search-R1和ToRL等方法，通过精确匹配（EM）、平均工具调用次数（TC）和新定义的工具生产率（TP）等指标评估模型性能。

实验洞察

1. 性能优势：在搜索任务中，与Search-R1相比，OTC-PPO和OTC-GRPO显著降低TC并提高TP。如在Qwen2.5-7B-Base模型的NQ数据集上，OTC-GRPO的TC降低69.8%，TP提高229.4%；在HotpotQA数据集上，OTC-GRPO的TC降低73.1%，TP提高256.9%，且在大模型上能保持较高EM分数。