复旦NLP团队提出全新大模型智能体强化学习范式，大幅提升智能体推理与代码能力...-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/136796318

复旦大学NLP团队提出新方法R3和StepCoder，利用强化学习改进大语言模型的推理与代码生成能力。R3基于逆课程强化学习，通过结果监督模拟过程监督，有效提升模型在数学推理、逻辑推理等任务上的性能。StepCoder则通过分解复杂代码生成任务，改善RL在稀疏奖励环境中的探索问题，提高代码生成质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

去年下半年，复旦 NLP 团队推出了基于大语言模型的智能体综述《The Rise and Potential of Large Language Model Based Agents: A Survey》，取得了广泛的影响力，被国内外多家知名媒体报道，据谷歌学术统计引用量已经超过 170 次。这也说明，基于大模型的智能体是大模型时代最火热的研究方向之一。

研究者们通过为大模型添加感知、规划、行动和记忆等模块，构建自主智能体，使其能够完成一系列复杂的任务，取得了强悍的性能。然而，目前的工作主要基于提示（Prompt）的方式来引导模型进行操作，并没有真正对模型进行训练与优化。

另外一种基于监督学习的范式则主要通过灌输训练数据，让智能体进行模仿学习。在这种情况下，为了精进某一项任务，需要花费大量的成本让高技巧的标注人员去进行标注，或是搭建专供智能体进行训练的测试环境，导致这种方式难以扩展到更大规模。另外，这种方式主要通过构建示例数据，灌输给智能体，是一种被动的训练方式，缺少模型自己的探索。

为了构建一种低成本的、可扩展的、探索式的训练范式，复旦 NLP 团队提出了全新的基于强化学习的大模型智能体训练范式，并在推理任务、数学解题、代码生成等任务上进行了验证。