挑战DeepSeek-R1-Zero!PRIME:仅10%数据刷新数学推理SOTA,隐式奖励技术颠覆RL训练

你有没有想过这样一个问题:为什么强化学习遇上数学推理,传统方法总是力不从心?

原因是:LLMs在复杂推理任务中常依赖稀疏的“结果奖励”,但这种反馈粗糙低效,导致训练缓慢、易陷局部最优。

近期DeepSeek-R1-Zero凭借“零样本强化学习”引发关注,但其依赖海量数据和复杂标注的痛点仍未解决。

上海 AI Lab联合清华大学NLP实验室等机构最新提出的PRIME模型,通过隐式奖励(Implicit Rewards)技术,仅用10%的数据量,在数学推理任务中全面超越主流模型,甚至碾压GPT-4o和Qwen-Math!

PRIME如何颠覆传统RL训练?

让我们来看看PRIME的技术亮点:

1.隐式过程奖励:无需标注,自动生成细粒度反馈

传统方法需人工标注每一步推理是否正确,成本极高。PRIME创新性地通过隐式奖励模型,仅用最终答案的对错标签,即可自动生成每个token的细粒度奖励信号。

技术核心:将稀疏结果奖励拆解为token级过程奖励,动态追踪模型每一步推理的质量,解决信用分配难题。

2.在线更新PRM:告别奖励破解(Reward Hacking)

传统奖励模型一旦固定,易被策略模型“欺骗”(生成高奖励但无效的推理路径)。

PRIME的隐式奖励模型可实时在线更新,始终与策略模型同步进化,训练稳定性提升60%。

3. 兼容所有RL算法:RLOO、PPO、REINFORCE通吃

PRIME不绑定特定算法,实验证明其与RLOO结合效果最佳,训练效率提升2.5倍。PPO因额外价值模型开销反成累赘,验证了“轻量即高效”的设计理念。

4.从零开始训练:比DeepSeek-R1-Zero更极致的“Zero”实验

直接从基础模型(如Qwen2.5-Math-7B-Base)启动RL训练,仅需16步即超越Qwen-Math-Instruct,而DeepSeek-R1-Zero依赖72B大模型和百万级标注数据。

想要了解论文详情可以继续往下读,论文已开源。

【论文标题】
Process Reinforcement through Implicit Rewards
论文链接】https://arxiv.org/pdf/2502.01456v1

在这里插入图片描述

1 摘要

LLMs的推理阶段扩展中,密集过程奖励已被证明是比稀疏结果级奖励更有效的替代方案,特别是在需要复杂多步推理的任务中。

虽然密集奖励在 LLMs 的 RL 中也是一个有吸引力的选择,因为其细粒度的奖励有可能解决结果奖励的一些固有问题,如训练效率和功劳分配问题,但这一潜力在很大程度上尚未实现。

这主要归因于在线训练过程奖励模型(PRMs)面临的挑战,即收集高质量的过程标签成本过高,这使得它们特别容易受到奖励篡改的影响。

为了解决这些挑战,提出了 PRIME,它通过隐式过程奖励,仅使用策略滚动输出和结果标签就能实现 PRM 的在线更新。

PRIME 能与各种优势函数很好地结合,并且省去了现有方法所需的专门奖励模型训练阶段,大幅降低了开发成本。

本文在竞赛数学和编程任务中展示了 PRIME 的有效性。

从 Qwen2.5-Math-7B-Base 模型开始,PRIME 在几个关键推理基准测试中,比SFT模型平均提高了 15.1%。

值得注意的是,本文最终的模型 Eurus-2-7B-PRIME,在使用 Qwen2.5-Math-7B-Instruct 训练数据 10% 的情况下,在七个推理基准测试中超过了该模型。

在这里插入图片描述

2 贡献

  1. 提出PRIME这一可扩展框架,通过高效的强化学习和密集的标记级奖励来增强推理能力。

  2. PRIME 框架采用隐式过程奖励建模,仅用结果级标签训练密集奖励模型,实现奖励信号的在线学习,从根本上减轻奖励篡改问题,同时保持与传统结果奖励模型相同的计算成本。

  3. PRIME 作为一种通用方法,可融合标记级密集奖励和稀疏结果奖励,且无需专门的奖励建模阶段,能从单个语言模型出发,高效完成密集奖励生成、奖励模型初始化和更新以及策略模型的 RL 训练。

3 技术方案

在这里插入图片描述

PRIME 的步骤为:

(1)用参考模型初始化策略模型和隐式 PRM;

(2)为每个提示采样多个响应并根据输出准确率进行过滤;

(3)通过隐式 PRM 获得隐式过程奖励,并使用交叉熵(CE)损失进行更新;

(4)计算优势和策略损失,然后更新策略模型。

PRIME 是一种具有密集奖励的可扩展在线 RL 方法,其关键在于应用可从仅用结果标签训练的隐式 PRM 推导出来的隐式过程奖励

从而能够在线更新 PRMs 以避免奖励篡改,并设计了一个灵活的框架将隐式过程奖励与结果奖励纳入蒙特卡洛(MC)优势估计中。

使用隐式奖励建模实现可扩展的奖励更新:考虑使用隐式 PRM 的密集奖励是因其可扩展性,隐式 PRM 能仅用结果标签训练结果奖励模型(ORM),并在推理时将其用作 PRM。

在 PRIME 中,策略滚动输出由(真实)结果验证器生成并评分后,用策略滚动输出和结果监督在线更新隐式 PRM,然后计算标记级密集奖励来估计优势,解决了过程奖励难以定义和 PRM 在线更新不可扩展的问题。

优势估计和策略更新:使用leave-one-out基线的蒙特卡洛估计器估计优势,选择 MC 估计作为优势函数,并结合leave-one-out基线。

分别计算隐式过程奖励和结果奖励的回报,再将两者结合得到最终优势。

采用近端策略优化(PPO)剪辑代理损失来更新策略,防止更新后的策略偏离原始分布太远,提高采样效率。

其他技术:用SFT/基础模型初始化 PRM,可绕过 PRM 训练阶段,效果甚至优于专门训练的 PRM。

引入在线提示过滤,在一定准确率范围内过滤提示,保留特定难度范围的提示,平衡隐式 PRM 在线训练的数据分布。

是不是还是很抽象?还是没看懂?

如果还是没法理解,我举个简单的例子:

以往的方法就好像你参加考试,分数完全依赖交卷之后的最终答案是否正确来给你打分,过程再对,结果不对也没分。

但PRIME框架不一样,它是给你配备了“随身老师”,不管你是做选择题还是大题,过程统统都有分。

不仅给你打分还能指出思路是否有误,最后还能给你做“错题集”,让你下次遇到同样题目能直接秒杀。

最贴心的是还为你挑选难度适中的题,不至于打击你的信心。

这样下来你成绩能不提高吗?

4 实验结果

主要结果

Eurus-2-7B-PRIME 在关键推理基准测试上相比 SFT 模型平均提升 15.1%,在 AMC 和 AIME 竞赛上提升超 20%,在 AIME 2024 上的 pass@1 达到 26.7%,超过多个先进模型。

密集奖励与稀疏奖励对比

对比 PRIME 和仅使用结果奖励的 RLOO,PRIME 达到相同训练奖励所需步骤为 RLOO 的 40%,最终奖励提升 6.9% 且方差更低。

“Zero” 实验

DeepSeek提出从基础模型直接用强化学习训练的 DeepSeek-R1-Zero。

受此启发,论文开展相关实验探究 “Zero” 设置,即跳过监督微调(SFT)阶段,直接从基础模型进行 RL 训练。

在这里插入图片描述

训练高效有效:对比从 Qwen2.5-Math-7B 进行 PRIME 训练和从 Eurus-2-7B-SFT 训练,发现 “Zero” 设置收敛速度更快。

这表明直接从基础模型进行 RL 训练,有可能替代传统的 SFT-RL 训练流程,为模型训练提供了一种更高效的路径。

大模型受益更多:比较 7B 和 32B 模型的训练情况,32B 模型在训练奖励和测试性能上提升更显著。这与 DeepSeek-AI 等的研究结论一致,说明模型规模对 “Zero” 设置下的训练效果有重要影响,大模型在直接 RL 训练中能获得更大的收益 。

存在饱和问题:PRIME-Zero 虽取得显著性能提升,但在训练早期(约 50 步)就出现饱和现象,限制了模型的进一步优化。论文推测这可能是由于响应多样性降低导致的,将此问题留作未来研究方向。

5 结论

作为大语言模型的 “燃料”,数据在不久的将来可能会耗尽,我们正进入一个以强化学习为代表的搜索和探索新时代。

本文开发了 PRIME,在大语言模型推理的在线强化学习中生成并利用密集奖励。

通过实验验证,PRIME

(1)显著提高了样本效率和策略性能。

(2)使用方便且成本最低。

(3)是一种通用方法,可与多种强化学习算法协同工作。

【源码链接】

https://github.com/PRIME-RL/PRIME


6 如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值