论文:https://arxiv.org/abs/2504.02495
机构:DeepSeek AI + 清华
时间线:2025/04/03(submitted)
简介
这篇论文是DeepSeek近期放出来的关于RM的方法,很多人觉得这是R2的前兆,所以简单梳理一下这篇论文的核心内容,提前学习一波。(写分享不易,如果觉得可以的话,辛苦点个关注,谢谢啦)
业界 Reward 机制介绍
论文首先介绍了业界目前已有的奖励生成范式和评分模式,看图2。其实就是为了输出一个结论:Pointwise的评分模式更加灵活,并且纯Scalar的生成范式,对于大量多样化的输入情况时,可能会失控,不能把握评分的结果,从而引出论文提出的SPCT方法。
奖励生成范式
-
(a) Scalar:输入查询和响应,奖励模型(RM)直接输出一个标量分数。
-
(b) Semi - Scalar:输入查询和响应,RM 输出一个标量分数和评论(Critique)。
-
© Generative:输入查询和响应,RM 仅输出评论。
评分模式
-
(i) Pointwise:对每个响应分别打分,输出各自的分数。
-
(ii) Pairwise:输入两个响应,RM 输出相对分数,表明哪个响应更好。
不同组合及其特性
-
Bradley - Terry:是 (a) Scalar 和 (i) Pointwise 的组合。在推理时不可扩展,但输入灵活。
-
PairRM:是 (a) Scalar 和 (ii) Pairwise 的组合。推理时不可扩展,输入不灵活 。
-
CLoud:是 (b) Semi - Scalar 和 (i) Pointwise 的组合。推理时可扩展,输入灵活。
-
LLM-as-a-Judge:是 (b)/© 和 (ii) Pairwise 的组合。推理时可扩展,但输入不灵活 。
-
Pointwise GRM:是 © Generative 和 (i) Pointwise 的组合。推理时可扩展,输入灵活 。
注:推理扩展性 和 输入灵活性 怎么理解?
-
推理扩展性:就是随着查询数量的线性增加,推理成本是否能稳定变化,不至于崩盘。
-
输入灵活性:就是指奖励模型能够适应不同形式、不同结构的输入数据。
Principles
作者通过实验发现,使用经过筛选的原则(filtered principles)能够比用自我生成的原则(self - generated principles)更能提升奖励质量,这个结论是符合人的直觉的,合理。
Self-Principled Critique Tuning (SPCT)
接下来就到了论文提出的SPCT方法介绍了,主要看图3就行,比较复杂,按照从上到下的顺序,分三部分说。
Offline Training(RFT)
-
输入:在图片的左上角部分 ,将查询(Q)和响应(R)输入到奖励生成模型(GRM)。
-
采样和评估:GRM 对输入进行采样(对应图中 “Sampling” 箭头 )。依据不同原则进行评估,在图中上方偏左橙色区域展示了不同原则集,如 “Principle 1: Instruction Adherence (Weight: 4); Principle 2: Level of Detail (Weight: 3); ……” 以及 “Principle 1: Safety (4); Principle 2: Clarity (2); ……” 。通过这些原则判断不同响应的优劣,得出分数,比如判断出 Response 1 比 Response 2 好,最终分数为 [2, 4] ;或者 Response 1 不如 Response 2 ,最终分数为 [6, 1] 。
-
数据提取与处理:将评估得到的分数信息提取出来(对应 “Extract” ),如果结果属于 “Too Easy/Incorrect”(在图中右上角 ),这条完整判断的流程数据(Q&R对、原则集信息等)就会被放入 RFT Dataset(拒绝式微调数据集 ),用于离线训练优化模型 。
Online Update(Rule-based RL)
-
输入与输出:在图片中上部分 ,同样将查询(Q)和响应(R)输入 GRM ,GRM 进行滚动输出(Rolling Out,对应箭头 )。
-
原则评估:依据新的原则集进行评估,在图中橙色区域展示了 “Principle 1: Logic Chain Correctness (35%); …… Principle 2: Completeness & Compatibility (20%) ……” 。通过分析得出哪个响应更好及相应分数,例如最终分数为 [2, 7] (表示 Response 1 得 2 分,Response 2 得 7 分 )。
-
规则与奖励优化:提取分数信息(对应 “Extract” ),用于优化规则(Rules)和奖励(Reward)机制 ,在图中右侧偏上部分 ,这属于在线更新过程 。
Inference
-
并行采样:在图片下方部分 ,将查询和响应输入 GRM 后进行并行采样(对应 “Parallel Sampling” 箭头 )。
-
多原则评估:依据多个不同的原则集进行评估,在图中下方蓝色区域展示了多组原则,如 “Principle 1: Technical Accuracy (Weight: 30%); ……”“Principle 1: Clarity and Organization (Weight: 40%); ……” 等 。针对每组原则,分析响应表现并打分,在 “Critiques” 区域有详细分析 ,例如根据某组原则得出 Response 2 比 Response 1 好,分数是 [1, 5] ;根据另一组原则最终分数是 [5, 6] 等 。
-
投票与元奖励建模:
-
投票(Voting):将不同原则集评估得到的分数结果进行投票(在图中右侧 “Voting” 部分 ),整合分数信息 。
-
元奖励建模(Meta RM ):引入 Meta RM(在图中右侧 “Meta RM” 部分 ),对投票过程进行指导或优化 ,筛选调整投票结果,最终得出更精细合理的奖励分数,如 [5, 20] 、[13, 20] 等 。
-
实际例子感受
纯以自己的理解,yy了一个实际例子说明,假设有个外卖平台的评价系统,对于图3的流程,有三个阶段:
- RFT(拒绝式微调 - 筛选 “问题评价”)
外卖平台有很多用户对商家的评价(Q 是商家名称,R 是用户写的评价内容)。
奖励生成模型(GRM)先依据初步原则打分,例如 “是否写清菜品口味” 权重占 40%、“有无提到配送速度” 权重占 30%、“内容是否真实” 权重占 30%。
若一条评价很敷衍(如 “一般”),模型却误判为高分(预测奖励与真实奖励不符,属于 “Incorrect”),或者模型未仔细分析就随意给分(判断过程 “Too Easy”),这类评价数据会被筛选出来,放入 RFT 数据集,不用于后续训练。这一步就像平台先剔除 “无价值” 的评价,确保训练数据质量。
- RL(基于规则的强化学习 - 优化评价模型)
平台采用更复杂的规则优化模型,如 “评价是否包含具体体验” 权重占 35%、“逻辑是否连贯” 权重占25%、“对他人参考价值” 权重占40%。
每次模型处理评价(Rolling Out)时,会生成原则和评论(例如针对 “菜太咸” 这条评价,模型生成评论 “未具体描述咸的程度,参考价值低”),然后将模型预测的分数与人工审核的真实分数对比。
若模型能准确区分优质评价(如 “宫保鸡丁口味正宗,配送速度快,包装精美”)和劣质评价(如 “不好吃”),则奖励 +1;否则奖励 -1。
通过反复训练,模型逐渐就学会精准评估评价,比如遇到详细且真实的好评就给高分,对敷衍的评价给出低分。
- Inference(快速评估新评价)
当新评价产生(输入商家 Q 和用户评价 R),GRM 并行采用多组原则打分,例如 “内容真实性” 权重 30%、“表述清晰性” 权重40%、“对其他用户的帮助性” 权重30%。
假设一条评价为 “鱼香肉丝咸淡适中,米饭颗粒分明,配送准时”,在 “内容真实性” 得 8 分,“表述清晰性” 得 9 分。各原则分析完成后,通过投票整合分数,并经 Meta RM 优化,得出最终评分。
其他用户通过这个评分,能快速判断这条评价的可信度和参考价值,辅助消费决策。
Inference-Time Scaling with SPCT
- 基于采样的投票策略
对每个查询和响应进行多次并行采样,把每次采样得到的奖励分数加起来作为最终奖励,并且在采样前打乱响应顺序,让结果更客观。
- 元奖励模型(Meta RM)引导投票
训练一个能判断评估好坏的模型(Meta RM),用它从多次采样结果里选出较好的样本,再用这些样本的奖励进行投票,把不好的样本去掉 。
实验结果
基线
-
Reward Bench(Lambert et al., 2024 )
-
PPE(Frick et al., 2025 )
-
RMB(Zhou et al., 2025 )
-
ReaLMistake(Kamoi et al., 2024 )
评估指标
-
在 Reward Bench、PPE 和 RMB 中,评估指标是从一组响应中选出最佳响应的准确率(accuracy ) 。
-
在 ReaLMistake 中,评估指标是AUC 。
关键结论
- SPCT 提升了通用奖励生成模型的奖励生成能力,相比标量和半标量奖励模型,偏差显著减少。
-
SPCT 提升了奖励生成模型(GRMs)推理时的可扩展性,meta RM 进一步提升了扩展性能。
-
即便没有拒绝式采样评论数据的冷启动(RFT 阶段 ),经在线强化学习(RL)后,通用指令微调的 GRMs 性能仍能显著提升(从 66.1 提升到 68.7 ),说明在线训练 以及 通用指令数据对 GRMs 性能至关重要。
总结
这篇论文提出的SPCT框架思路,还是非常值得参考的,相比传统方法更注重数据筛选与规则引导,而且实验也做得非常充分。但个人觉得,也有一些不足之处吧:
- 大规模RL下,GRM的效率还是有提升空间
论文也说了,GRM在同规模下效率显著低于标量奖励模型(如DeepSeek-BTRM-27B),这也限制了在大规模RL中的应用。
- 高频反馈场景下,GRM的延迟可能会有瓶颈
虽然论文也通过并行采样缓解了推理延迟(如8次采样未显著增加耗时),但生成文本形式的奖励(原则和评论)仍然要比标量值更耗时,所以如果对于一个需要高频反馈的场景来说,这一点可能会成为瓶颈。
例如要训练一个玩游戏的AI,每执行一个动作就需要立即获得奖励信号,如果速度跟不上,训练效率也就慢下来了。
- 在特定任务上有一定的局限性
比如在数学推理、代码生成等可验证的任务中,GRM 的表现就不及标量模型。论文也承认了,标量模型可能通过捕捉隐藏特征在这些任务中更高效,而 GRM 需要更强的推理能力来生成详细的批判,导致表现落后。
例如,在 PPE Correctness 基准上,DeepSeek-GRM-27B 的准确率(60.4%)低于 DeepSeek-BTRM-27B(66.7%)。
- 数据质量要求高
很依赖GroudTruth,如果实际标注的GT存在噪声或者不准确,模型训练效果就会大打折扣。而做过大模型后训练这一行的人,应该都有同感,这个GT是非常难标的,需要花大量的人力和时间成本去做的。
- 调参难度大
涉及到多阶段训练,不仅要有计算资源,还对调参有比较高的要求。
- 通用性不够高
尽管论文强调通用奖励建模,但在训练数据覆盖不足的领域(如实时数据处理、专业领域知识)中,GRM 可能因缺乏相关原则而导致效果不好。例如,案例分析中,模型就无法准确评估实时价格数据的准确性。