引言
去年下半年,复旦 NLP 团队推出了基于大语言模型的智能体综述《The Rise and Potential of Large Language Model Based Agents: A Survey》,取得了广泛的影响力,被国内外多家知名媒体报道,据谷歌学术统计引用量已经超过 170 次。这也说明,基于大模型的智能体是大模型时代最火热的研究方向之一。
研究者们通过为大模型添加感知、规划、行动和记忆等模块,构建自主智能体,使其能够完成一系列复杂的任务,取得了强悍的性能。然而,目前的工作主要基于提示(Prompt)的方式来引导模型进行操作,并没有真正对模型进行训练与优化。
另外一种基于监督学习的范式则主要通过灌输训练数据,让智能体进行模仿学习。在这种情况下,为了精进某一项任务,需要花费大量的成本让高技巧的标注人员去进行标注,或是搭建专供智能体进行训练的测试环境,导致这种方式难以扩展到更大规模。另外,这种方式主要通过构建示例数据,灌输给智能体,是一种被动的训练方式,缺少模型自己的探索。
为了构建一种低成本的、可扩展的、探索式的训练范式,复旦 NLP 团队提出了全新的基于强化学习的大模型智能体训练范式,并在推理任务、数学解题、代码生成等任务上进行了验证。
R3:基于逆课程强化学习的大模型推理训练框架
论文链接:
https://arxiv.org/abs/2402.05808
代码链接:
https://github.com/WooooDyy/LLM-Reverse-Curriculum-RL
2.1 引文
▲ 图1:R3,基于逆课程强化学习的大模型推理训练框架
强化学习通过将探索与学习结合,提供了一种自动化的、低标注成本的训练范式。在大模型领域,强化学习这一技术已经在 RLHF 等任务中表现了强大的能力。将强化学习应用到大模型训练时,关键在于识别出一条能带来正向回报的行为轨迹,提供适当的监督信号并优化该智能体。
一方面,随着复杂任务(例如逻辑推理、数学解题)难度的增加,推理链的复杂性和长度也在增加。智能体需要面临多个中间步骤的错误和不确定性的积累。推理步骤的增加导致推理的潜在搜索空间呈指数增长,使得模型获得正确的最终结果变得非常困难。
另一方面,现有的监督方法需要在反馈质量和注释成本之间进行权衡。目前,存在两种主流的监督策略:结果监督(Outcome Supervision)和过程监督(Process Supervision)。
其中,结果监督只奖励最终结果,但奖励比较稀疏,使得模型很难确定哪些行动导致了最终的成功或失败。而过程监督在每一步推理步骤上都提供详细的反馈,使模型的优化过程更加精确,但这种方法需要高技能的注释者来选择更好的推理路径,大大增加了成本。
为了应对这一挑战,复旦团队创新性地提出了基于逆课程强化学习(R3, Reasoning through R</