【LLM RM】论文分享No.5：DeepSeek-GRM-CSDN博客

本文链接：https://blog.csdn.net/LG154721/article/details/147660751

论文：https://arxiv.org/abs/2504.02495

机构：DeepSeek AI + 清华

时间线：2025/04/03（submitted）

简介

这篇论文是DeepSeek近期放出来的关于RM的方法，很多人觉得这是R2的前兆，所以简单梳理一下这篇论文的核心内容，提前学习一波。（写分享不易，如果觉得可以的话，辛苦点个关注，谢谢啦）

业界 Reward 机制介绍

论文首先介绍了业界目前已有的奖励生成范式和评分模式，看图2。其实就是为了输出一个结论：Pointwise的评分模式更加灵活，并且纯Scalar的生成范式，对于大量多样化的输入情况时，可能会失控，不能把握评分的结果，从而引出论文提出的SPCT方法。

在这里插入图片描述

奖励生成范式

(a) Scalar：输入查询和响应，奖励模型（RM）直接输出一个标量分数。
(b) Semi - Scalar：输入查询和响应，RM 输出一个标量分数和评论（Critique）。
© Generative：输入查询和响应，RM 仅输出评论。

评分模式

(i) Pointwise：对每个响应分别打分，输出各自的分数。
(ii) Pairwise：输入两个响应，RM 输出相对分数，表明哪个响应更好。

不同组合及其特性

Bradley - Terry：是 (a) Scalar 和 (i) Pointwise 的组合。在推理时不可扩展，但输入灵活。
PairRM：是 (a) Scalar 和 (ii) Pairwise 的组合。推理时不可扩展，输入不灵活。
CLoud：是 (b) Semi - Scalar 和 (i) Pointwise 的组合。推理时可扩展，输入灵活。
LLM-as-a-Judge：是 (b)/© 和 (ii) Pairwise 的组合。推理时可扩展，但输入不灵活。
Pointwise GRM：是 © Generative 和 (i) Pointwise 的组合。推理时可扩展，输入灵活。

注：推理扩展性和输入灵活性怎么理解？

推理扩展性：就是随着查询数量的线性增加，推理成本是否能稳定变化，不至于崩盘。
输入灵活性：就是指奖励模型能够适应不同形式、不同结构的输入数据。

Principles

作者通过实验发现，使用经过筛选的原则（filtered principles）能够比用自我生成的原则（self - generated principles）更能提升奖励质量，这个结论是符合人的直觉的，合理。

在这里插入图片描述

Self-Principled Critique Tuning (SPCT)

接下来就到了论文提出的SPCT方法介绍了，主要看图3就行，比较复杂，按照从上到下的顺序，分三部分说。

在这里插入图片描述

Offline Training（RFT）

输入：在图片的左上角部分，将查询（Q）和响应（R）输入到奖励生成模型（GRM）。
采样和评估：GRM 对输入进行采样（对应图中 “Sampling” 箭头）。依据不同原则进行评估，在图中上方偏左橙色区域展示了不同原则集，如 “Principle 1: Instruction Adherence (Weight: 4); Principle 2: Level of Detail (Weight: 3); ……” 以及 “Principle 1: Safety (4); Principle 2: Clarity (2); ……” 。通过这些原则判断不同响应的优劣，得出分数，比如判断出 Response 1 比 Response 2 好，最终分数为 [2, 4] ；或者 Response 1 不如 Response 2 ，最终分数为 [6, 1] 。
数据提取与处理：将评估得到的分数信息提取出来（对应 “Extract” ），如果结果属于 “Too Easy/Incorrect”（在图中右上角），这条完整判断的流程数据（Q&R对、原则集信息等）就会被放入 RFT Dataset（拒绝式微调数据集），用于离线训练优化模型。

Online Update（Rule-based RL）

输入与输出：在图片中上部分，同样将查询（Q）和响应（R）输入 GRM ，GRM 进行滚动输出（Rolling Out，对应箭头）。
原则评估：依据新的原则集进行评估，在图中橙色区域展示了 “Principle 1: Logic Chain Correctness (35%); …… Principle 2: Completeness & Compatibility (20%) ……” 。通过分析得出哪个响应更好及相应分数，例如最终分数为 [2, 7] （表示 Response 1 得 2 分，Response 2 得 7 分）。
规则与奖励优化：提取分数信息（对应 “Extract” ），用于优化规则（Rules）和奖励（Reward）机制，在图中右侧偏上部分，这属于在线更新过程。

Inference

并行采样：在图片下方部分，将查询和响应输入 GRM 后进行并行采样（对应 “Parallel Sampling” 箭头）。
多原则评估：依据多个不同的原则集进行评估，在图中下方蓝色区域展示了多组原则，如 “Principle 1: Technical Accuracy (Weight: 30%); ……”“Principle 1: Clarity and Organization (Weight: 40%); ……” 等。针对每组原则，分析响应表现并打分，在 “Critiques” 区域有详细分析，例如根据某组原则得出 Response 2 比 Response 1 好，分数是 [1, 5] ；根据另一组原则最终分数是 [5, 6] 等。
投票与元奖励建模：
- 投票（Voting）：将不同原则集评估得到的分数结果进行投票（在图中右侧 “Voting” 部分），整合分数信息。
- 元奖励建模（Meta RM ）：引入 Meta RM（在图中右侧 “Meta RM” 部分），对投票过程进行指导或优化，筛选调整投票结果，最终得出更精细合理的奖励分数，如 [5, 20] 、[13, 20] 等。

实际例子感受

纯以自己的理解，yy了一个实际例子说明，假设有个外卖平台的评价系统，对于图3的流程，有三个阶段：

RFT（拒绝式微调 - 筛选 “问题评价”）

外卖平台有很多用户对商家的评价（Q 是商家名称，R 是用户写的评价内容）。

奖励生成模型（GRM）先依据初步原则打分，例如 “是否写清菜品口味” 权重占 40%、“有无提到配送速度” 权重占 30%、“内容是否真实” 权重占 30%。

若一条评价很敷衍（如 “一般”），模型却误判为高分（预测奖励与真实奖励不符，属于 “Incorrect”），或者模型未仔细分析就随意给分（判断过程 “Too Easy”），这类评价数据会被筛选出来，放入 RFT 数据集，不用于后续训练。这一步就像平台先剔除 “无价值” 的评价，确保训练数据质量。

RL（基于规则的强化学习 - 优化评价模型）

平台采用更复杂的规则优化模型，如 “评价是否包含具体体验” 权重占 35%、“逻辑是否连贯” 权重占25%、“对他人参考价值” 权重占40%。

每次模型处理评价（Rolling Out）时，会生成原则和评论（例如针对 “菜太咸” 这条评价，模型生成评论 “未具体描述咸的程度，参考价值低”），然后将模型预测的分数与人工审核的真实分数对比。

若模型能准确区分优质评价（如 “宫保鸡丁口味正宗，配送速度快，包装精美”）和劣质评价（如 “不好吃”），则奖励 +1；否则奖励 -1。

通过反复训练，模型逐渐就学会精准评估评价，比如遇到详细且真实的好评就给高分，对敷衍的评价给出低分。

Inference（快速评估新评价）

当新评价产生（输入商家 Q 和用户评价 R），GRM 并行采用多组原则打分，例如 “内容真实性” 权重 30%、“表述清晰性” 权重40%、“对其他用户的帮助性” 权重30%。

假设一条评价为 “鱼香肉丝咸淡适中，米饭颗粒分明，配送准时”，在 “内容真实性” 得 8 分，“表述清晰性” 得 9 分。各原则分析完成后，通过投票整合分数，并经 Meta RM 优化，得出最终评分。

其他用户通过这个评分，能快速判断这条评价的可信度和参考价值，辅助消费决策。

Inference-Time Scaling with SPCT

基于采样的投票策略

对每个查询和响应进行多次并行采样，把每次采样得到的奖励分数加起来作为最终奖励，并且在采样前打乱响应顺序，让结果更客观。

元奖励模型（Meta RM）引导投票

训练一个能判断评估好坏的模型（Meta RM），用它从多次采样结果里选出较好的样本，再用这些样本的奖励进行投票，把不好的样本去掉。

实验结果

基线

Reward Bench（Lambert et al., 2024 ）
PPE（Frick et al., 2025 ）
RMB（Zhou et al., 2025 ）
ReaLMistake（Kamoi et al., 2024 ）

评估指标

在 Reward Bench、PPE 和 RMB 中，评估指标是从一组响应中选出最佳响应的准确率（accuracy ）。
在 ReaLMistake 中，评估指标是AUC 。

关键结论

SPCT 提升了通用奖励生成模型的奖励生成能力，相比标量和半标量奖励模型，偏差显著减少。

在这里插入图片描述

SPCT 提升了奖励生成模型（GRMs）推理时的可扩展性，meta RM 进一步提升了扩展性能。
即便没有拒绝式采样评论数据的冷启动（RFT 阶段），经在线强化学习（RL）后，通用指令微调的 GRMs 性能仍能显著提升（从 66.1 提升到 68.7 ），说明在线训练以及通用指令数据对 GRMs 性能至关重要。

在这里插入图片描述