复旦NLP团队提出全新大模型智能体强化学习范式,大幅提升智能体推理与代码能力...

复旦大学NLP团队提出新方法R3和StepCoder,利用强化学习改进大语言模型的推理与代码生成能力。R3基于逆课程强化学习,通过结果监督模拟过程监督,有效提升模型在数学推理、逻辑推理等任务上的性能。StepCoder则通过分解复杂代码生成任务,改善RL在稀疏奖励环境中的探索问题,提高代码生成质量。
摘要由CSDN通过智能技术生成

0ddbd85d6ad28eda1da5b62f8fb61a01.gif

c691e2ed9d5452174f98bcaf7a620f58.png

引言

去年下半年,复旦 NLP 团队推出了基于大语言模型的智能体综述《The Rise and Potential of Large Language Model Based Agents: A Survey》,取得了广泛的影响力,被国内外多家知名媒体报道,据谷歌学术统计引用量已经超过 170 次。这也说明,基于大模型的智能体是大模型时代最火热的研究方向之一。

ab9e6e3d8b044789c8373d0d9054f0a8.png

研究者们通过为大模型添加感知、规划、行动和记忆等模块,构建自主智能体,使其能够完成一系列复杂的任务,取得了强悍的性能。然而,目前的工作主要基于提示(Prompt)的方式来引导模型进行操作,并没有真正对模型进行训练与优化。

另外一种基于监督学习的范式则主要通过灌输训练数据,让智能体进行模仿学习。在这种情况下,为了精进某一项任务,需要花费大量的成本让高技巧的标注人员去进行标注,或是搭建专供智能体进行训练的测试环境,导致这种方式难以扩展到更大规模。另外,这种方式主要通过构建示例数据,灌输给智能体,是一种被动的训练方式,缺少模型自己的探索。

为了构建一种低成本的、可扩展的、探索式的训练范式,复旦 NLP 团队提出了全新的基于强化学习的大模型智能体训练范式,并在推理任务、数学解题、代码生成等任务上进行了验证

df9d5cc1927b7395b7da82c4f14ebae3.png

R3:基于逆课程强化学习的大模型推理训练框架

5e9c770e0b5cb16b3b6014558c8c30f1.png

论文链接:

https://arxiv.org/abs/2402.05808

代码链接:

https://github.com/WooooDyy/LLM-Reverse-Curriculum-RL

2.1 引文

129d97935f9bd552620674ca37212979.png

▲ 图1:R3,基于逆课程强化学习的大模型推理训练框架

强化学习通过将探索与学习结合,提供了一种自动化的、低标注成本的训练范式。在大模型领域,强化学习这一技术已经在 RLHF 等任务中表现了强大的能力。将强化学习应用到大模型训练时,关键在于识别出一条能带来正向回报的行为轨迹,提供适当的监督信号并优化该智能体

一方面,随着复杂任务(例如逻辑推理、数学解题)难度的增加,推理链的复杂性和长度也在增加。智能体需要面临多个中间步骤的错误和不确定性的积累。推理步骤的增加导致推理的潜在搜索空间呈指数增长,使得模型获得正确的最终结果变得非常困难。

另一方面,现有的监督方法需要在反馈质量和注释成本之间进行权衡。目前,存在两种主流的监督策略:结果监督(Outcome Supervision)和过程监督(Process Supervision)。

其中,结果监督只奖励最终结果,但奖励比较稀疏,使得模型很难确定哪些行动导致了最终的成功或失败。而过程监督在每一步推理步骤上都提供详细的反馈,使模型的优化过程更加精确,但这种方法需要高技能的注释者来选择更好的推理路径,大大增加了成本。

为了应对这一挑战,复旦团队创新性地提出了基于逆课程强化学习(R3, Reasoning through R</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值