主要内容
- 研究背景:大语言模型(LLMs)在复杂推理任务中表现出色,工具集成推理(TIR)通过让LLMs与外部工具交互,能解决其知识过时、计算不准确等问题。目前训练LLMs进行TIR任务主要依赖监督微调(SFT),但SFT在泛化、探索和适应性方面存在不足。强化学习(RL)为解决这些问题提供了新方向,而设计有效的奖励机制是RL训练的关键。
- 方法:定义TIR任务,通过系统提示和特定格式让模型自主生成推理轨迹和工具调用。设计结合结构和正确性的奖励机制,将总体奖励分解为格式奖励和正确性奖励,其中正确性奖励又细分为工具名称匹配、参数名称匹配和参数内容匹配。使用分组相对策略优化(GRPO)算法对模型进行训练,通过组内样本的优势归一化稳定训练。
- 实验:构建包含多种工具使用场景的混合数据集,在多个基准测试上评估模型,包括伯克利函数调用排行榜(BFCL)、API-Bank和Bamboogle。对比多个基线模型,结果表明基于GR