推理时间扩展的通用奖励建模

刘子军 , 王佩怡 , 徐润鑫 , 马世荣 , 冉冲 , 李鹏 , 刘洋 , 吴宇 DeepSeek-AI, 清华大学计算机科学与技术系, 清华大学人工智能产业研究院 (AIR)zj-liu24@mails.tsinghua.edu.cn, wangpeiyi9979@gmail.com

摘要

强化学习(RL)已在大规模语言模型(LLMs)的后训练中广泛采用。最近,通过RL激励LLMs的推理能力表明,适当的学习方法可以实现有效的推理时间可扩展性。RL的关键挑战之一是在各种领域为LLMs获得准确的奖励信号,超越可验证问题或人工规则。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即推理时间可扩展性的通用RM,并进一步探讨如何通过适当的学习方法提高性能-计算可扩展性。对于RM方法,我们采用逐点生成式奖励建模(GRM),以实现不同输入类型和潜在推理时间扩展的灵活性。对于学习方法,我们提出自原则批评调整(SPCT),通过在线RL促进GRMs中的可扩展奖励生成行为,从而自适应地生成原则并准确地进行批评,结果产生了DeepSeek-GRM模型。此外,为了实现有效的推理时间扩展,我们使用并行采样来扩展计算使用,并引入一个元RM来指导投票过程以实现更好的扩展性能。经验上,我们显示SPCT显著提高了GRMs的质量和可扩展性,在各种RM基准测试中优于现有方法和模型且无严重偏差,相比训练时间扩展能取得更好的性能。DeepSeek-GRM在某些任务中仍面临挑战,但我们相信这些可以通过未来在通用奖励系统中的努力解决。这些模型将被发布并开源。

1 引言

大型语言模型(LLMs)(DeepSeek-AI, 2024b; OpenAI, 2025b) 的显著进展推动了人工智能研究的重大转变,使模型能够执行需要理解、生成和细致决策能力的任务。最近,作为LLMs后训练方法的强化学习(RL)已被广泛采用,并在人类价值对齐(Ouyang等, 2022; Bai等, 2022a)、长期推理(DeepSeek-AI, 2025; OpenAI, 2025c)以及环境适应(OpenAI, 2025a)方面取得了显著改进。奖励建模(Gao

图1:在所有测试的RM基准上的不同RMs的推理时间扩展性能。每个方法的结果最多显示8个样本,并进一步扩展到我们的32个样本。非斜体字表示基于Gemma-2-27B的模型。

[^0] [^0]: *同等贡献。 实习期间在DeepSeek-AI完成的工作。 等, 2023), 作为RL中的关键组件,对于生成LLMs响应的准确奖励信号至关重要。当前的研究(Lightman等, 2024; DeepSeek-AI, 2025)还表明,在训练或推理时间中具有高质量和稳健的奖励可以使LLMs在特定领域内实现强大性能。

然而,特定领域的这种高质量奖励主要来自设计明确条件的人工环境(Yao等, 2022; Xie等, 2024)或针对可验证问题的手工规则,例如部分数学问题(Hendrycks等, 2021; Veeraboina, 2023)和编码任务(Jimenez等, 2024; Zhuo等, 2025)。在通用领域中,奖励生成更具挑战性,因为奖励标准更加多样化和复杂,通常没有明确的参考或真实值。因此,通用奖励建模对于改善LLMs在更广泛应用中的性能至关重要,无论是从后训练角度(如大规模RL)还是从推理角度(如RM引导搜索)。此外,应通过增加训练计算(Gao等, 2023)和推理计算来提升RM性能。

在实践中,使RMs既通用又在推理时间有效扩展存在挑战。通用RM需要(1)不同输入类型的灵活性和(2)各种领域的准确奖励生成。此外,有效的推理时间扩展要求RM(3)在增加推理计算时生成更高质量的奖励信号,以及(4)学习可扩展行为以实现更好的性能-计算扩展。现有的奖励建模研究表明了几种奖励生成范例,包括标量(Cobbe等, 2021; Wang等, 2024d; Liu等, 2024)、半标量(Ye等, 2024; Yu等, 2025b; Zhang等, 2025a)和生成式(Li等, 2024a; Kim等, 2024; Vu等, 2024; Cao等, 2024; Arabzadeh等, 2024; Ye等, 2025; Alexandru等, 2025; Yu等, 2025a)方法,以及不同的评分模式,如逐点(Kendall & Smith, 1940; Gao等, 2023; Yuan等, 2024; Winata等, 2025; Guo等, 2025)和配对(Park等, 2024; Zheng等, 2023; Jiang等, 2023; Wang等, 2024c; Liu等, 2025)方法。这些方法本质上决定了RM的输入灵活性和推理时间扩展性((1)$r(3)),如图2所示。例如,配对RM仅考虑成对响应的相对偏好,缺乏接受单个或多个响应作为输入的灵活性;标量RM很难为相同响应生成多样化的奖励信号,这阻碍了通过基于采样的推理时间扩展方法获得更好奖励(Snell等, 2025)。此外,已经提出了不同的学习方法(Wang等, 2024a; Ankner等, 2024; Wang等, 2024c; Mahan等, 2024)以提高奖励质量,但很少有方法关注推理时间扩展并研究已学习奖励生成行为与RM推理时间扩展有效性之间的联系,导致性能改进有限((2)$r(4))。当前研究(DeepSeek-AI, 2025)表明,适当的學習方法可以实现有效的推理时间扩展,这引发了一个问题:我们能否设计一种旨在实现通用奖励建模推理时间扩展的学习方法? 在本工作中,我们在不同的RM方法中进行了调查,发现逐点生成式奖励建模(GRM)可以在纯语言表示中统一单个、成对和多个响应的评分,克服挑战(1)。我们探索了某些原则可以指导GRMs在适当标准下的奖励生成,提高奖励质量,这启发我们推理时间扩展可能通过扩展高质量原则生成和准确批评来实现。基于此初步研究,我们提出了一种新颖的学习方法,自原则批评调整(SPCT),以促进GRMs中的有效推理时间可扩展行为。通过基于规则的在线RL,SPCT使GRMs能够根据输入查询和响应自适应地提出原则和批评,从而在通用领域中获得更好的结果奖励(挑战(2))。我们随后开发了DeepSeek-GRM-27B,这是基于Gemma-2-27B(Team, 2024)并通过SPCT后训练的。对于推理时间扩展,我们通过多次采样扩展计算使用。通过并行采样,DeepSeek-GRM可以生成不同的原则集和相应批评,然后投票决定最终奖励。随着更大规模的采样,DeepSeek-GRM可以根据更高多样性原则更准确地判断,并输出更精细粒度的奖励,解决了挑战(3)$r(4)。此外,我们训练了一个元RM以更好地扩展性能。实证结果表明,SPCT显著提高了GRMs的质量和可扩展性,

图2:不同的奖励生成范式,包括(a)标量,(b)半标量,和(c)生成式方法,以及不同的评分模式,包括(i)逐点和(ii)配对方法。我们列出了每种方法的代表性方法,以及相应的推理时间可扩展性(是否可以通过多次采样获得更好的奖励)和输入灵活性(是否支持评级单个和多个响应)。 在多个全面的RM基准测试中表现优于现有方法和模型,而无需严重的领域偏差。我们还将DeepSeek-GRM-27B与高达671B参数的大模型进行了推理时间扩展性能比较,发现它在模型大小上的推理时间扩展性能优于训练时间扩展。尽管当前方法在效率和特定任务上遇到挑战,但通过超出SPCT的努力,我们相信具有增强可扩展性和效率的GRMs可以作为通用奖励系统的多功能接口,推进LLM后训练和推理的前沿。 总体而言,我们的主要贡献如下。

  1. 我们提出了一种新方法,自原则批评调整(SPCT),以促进通用奖励建模的有效推理时间可扩展性,结果产生了DeepSeek-GRM模型。我们进一步介绍了一个元RM,以有效地改进DeepSeek-GRM的推理时间扩展性能,超越单纯的投票。
  2. 我们实证展示了SPCT显著提升了GRMs的质量和推理时间可扩展性,超过了现有方法和几个强大的公共模型。
  3. 我们还在更大规模的LLMs上应用了SPCT训练计划,发现推理时间扩展可以胜过训练时间内的模型规模扩展。
    2 基础知识
    2.1 不同RM方法的比较
    如图2所示,RM方法主要由奖励生成范式和评分模式决定,这从根本上影响了RM的推理时间可扩展性和输入灵活性。对于奖励生成范式,我们区分了三种主要方法:标量、半标量和生成式。标量方法对标给定查询和响应的标量值,而半标量方法生成文本评判,称为“批评”,同时生成标量奖励值。生成式方法仅生成作为文本奖励的批评,从中可以提取奖励值。对于评分模式,我们区分了两种主要方法:逐点和配对。逐点方法为每个响应分配单独分数,而配对方法从所有候选中选择单一最佳响应。 为了在推理时间扩展计算使用,我们专注于基于采样的方法,该方法为相同的查询和响应生成多组奖励,然后聚合 最终奖励。因此,RM的推理时间可扩展性取决于是否可以从多次采样中获得不同的奖励,其中标量RM在大多数情况下会失败,因为奖励生成不变;输入灵活性则定义为RM是否支持评级单个、成对和多个响应,其中配对RM很难评级单个响应,通常需要额外的技术(Jiang等, 2023; Liu等, 2025)来处理多个响应。逐点GRMs的公式为:
    其中 是查询, 是第 个响应, 是由 参数化的奖励函数, 是奖励, 是批评, 是 的个体得分, 从生成结果中提取奖励。通常,奖励是离散的,在本工作中,默认将 。详细分析见附录C.1。
    2.2 使用原则提升奖励质量
    通用RM需要在特定领域之外生成高质量奖励(Hendrycks等, 2021; Jimenez等, 2024),其中奖励标准更加多样化和复杂,往往没有明确的参考或真实值。为此,对于通用领域,我们采用原则来代替人工规则指导奖励生成,提高奖励质量,这启发我们RM的推理时间扩展可能通过扩展高质量原则和准确批评的生成来实现。基于这一初步研究,我们提出了一种新的学习方法,自原则批评调整(SPCT),以促进GRMs中的有效推理时间可扩展行为。通过基于规则的在线RL,SPCT使GRMs能够根据输入查询和响应自适应地提出原则和批评,从而在通用领域中获得更好的结果奖励(挑战(2))。我们随后开发了DeepSeek-GRM-27B,这是基于Gemma-2-27B(Team, 2024)并通过SPCT后训练的。对于推理时间扩展,我们通过多次采样扩展计算使用。通过并行采样,DeepSeek-GRM可以生成不同的原则集和相应批评,然后投票决定最终奖励。随着更大规模的采样,DeepSeek-GRM可以根据更高多样性原则更准确地判断,并输出更精细粒度的奖励,解决了挑战(3)$r(4)。此外,我们还训练了一个元RM以更好地扩展性能。实证结果表明,SPCT显著提高了GRMs的质量和可扩展性,


图2:不同的奖励生成范式,包括(a)标量,(b)半标量,和(c)生成式方法,以及不同的评分模式,包括(i)逐点和(ii)配对方法。我们列出了每种方法的代表性方法,以及相应的推理时间可扩展性(是否可以通过多次采样获得更好的奖励)和输入灵活性(是否支持评级单个和多个响应)。 在多个综合RM基准测试中表现优于现有方法和模型,而无需严重的领域偏差。我们还将DeepSeek-GRM-27B与高达671B参数的大模型进行了推理时间扩展性能比较,发现它在模型大小上的推理时间扩展性能优于训练时间扩展。尽管当前方法在效率和特定任务上遇到挑战,但通过超出SPCT的努力,我们相信具有增强可扩展性和效率的GRMs可以作为通用奖励系统的多功能接口,推进LLM后训练和推理的前沿。 一般来说,我们的主要贡献如下。

  1. 我们提出了一种新方法,自原则批评调整(SPCT),以促进通用奖励建模的有效推理时间可扩展性,结果产生了DeepSeek-GRM模型。我们进一步介绍了一个元RM,以有效地改进DeepSeek-GRM的推理时间扩展性能,超越单纯的投票。
  2. 我们实证展示了SPCT显著提升了GRMs的质量和推理时间可扩展性,超过了现有方法和几个强大的公共模型。
  3. 我们还在更大规模的LLMs上应用了SPCT训练计划,发现推理时间扩展可以胜过训练时间内的模型规模扩展。

2 基础知识

2.1 不同RM方法的比较

如图2所示,RM方法主要由奖励生成范式和评分模式决定,这从根本上影响了RM的推理时间可扩展性和输入灵活性。对于奖励生成范式,我们区分了三种主要方法:标量、半标量和生成式。标量方法对标给定查询和响应的标量值,而半标量方法生成文本评判,称为“批评”,同时生成标量奖励值。生成式方法仅生成作为文本奖励的批评,从中可以提取奖励值。对于评分模式,我们区分了两种主要方法:逐点和配对。逐点方法为每个响应分配单独分数,而配对方法从所有候选中选择单一最佳响应。 为了在推理时间扩展计算使用,我们专注于基于采样的方法,该方法为相同的查询和响应生成多组奖励,然后聚合 最终奖励。因此,RM的推理时间可扩展性取决于是否可以从多次采样中获得不同的奖励,其中标量RM在大多数情况下会失败,因为奖励生成不变;输入灵活性则定义为RM是否支持评级单个、成对和多个响应,其中配对RM很难评级单个响应,通常需要额外的技术(Jiang等, 2023; Liu等, 2025)来处理多个响应。逐点GRMs的公式为:

其中 是查询, 是第 个响应, 是由 参数化的奖励函数, 是奖励, 是批评, 是 的个体得分, 从生成结果中提取奖励。通常,奖励是离散的,在本工作中,默认将 。详细分析见附录C.1。

2.2 使用原则提升奖励质量

通用RM需要在特定领域之外生成高质量奖励(Hendrycks等, 2021; Jimenez等, 2024),其中奖励标准更加多样化和复杂,往往没有明确的参考或真实值。为此,对于通用领域,我们采用原则来代替人工规则指导奖励生成,提高奖励质量。LLMs的原则首先在宪法AI(Bai等, 2022b; Sharma等, 2025)中引入,这些是手工准则,指导LLMs或策划分类器构建安全数据管道。通过原则,GRMs的奖励生成变化为

其中 表示原则。我们进行了一项初步实验,检查适当原则对奖励质量的影响,使用Reward Bench的Chat Hard子集(Lambert等, 2024)和PPE基准的IFEval子集(Frick等, 2025)。

我们使用GPT-4o-2024-08-06生成原则,并为每个样本点对奖励四次。我们过滤了那些与真实值一致的奖励对应的原则。我们测试了不同LLMs生成的原则和过滤后的原则,并与没有原则指导的默认设置进行了比较。结果见表1。我们发现自我生成的原则几乎不改善性能,但过滤后的原则可以显著提升奖励质量。这表明正确召集的原则更好地指导了奖励生成。详情见附录D。

3 自原则批评调整(SPCT)

受初步结果的启发,我们为逐点GRMs开发了一种新方法,学习生成适应性强且高质量的原则,以有效指导批评生成,称为自原则批评调整(SPCT)。如图3所示,SPCT包含两个阶段:拒绝微调,作为冷启动,以及基于规则的在线RL,通过推进生成的原则和批评强化通用奖励生成。SPCT也促进了GRMs在推理时间扩展中的行为。

3.1 从理解到生成解绑原则

从第2.2节的初步实验中,我们发现适当的原则可以在一定标准下指导奖励生成,这对于高质量奖励至关重要。然而,在大规模通用RM中生成有效原则仍然具有挑战性。为了解决这个挑战,我们提出将原则从理解转移到生成,即将原则视为奖励生成的一部分而非预处理步骤。

图3:SPCT说明,包括拒绝微调、基于规则的RL以及推理过程中相应的可扩展行为。推理时间扩展通过简单投票或使用大规模生成的原则进行元RM引导投票实现,从而在扩展的价值空间内产生更细粒度的最终奖励。

正式地,当原则预先定义时,原则引导奖励生成遵循方程2。GRMs可以自己生成原则,然后基于这些原则生成批评,形式化为

其中 是由 参数化的原则生成函数,与奖励生成 共享同一模型。这种转变使原则能够基于输入查询和响应生成,自适应地对齐奖励生成过程,原则和相应批评的质量和粒度可以通过GRM的后训练进一步改进。随着大规模生成的原则,GRM有可能在更合理的标准内输出奖励,并具有更细粒度的奖励,这对推理时间扩展同样重要。

3.2 基于规则的强化学习

为了同时优化GRMs中的原则和批评生成,我们提出了SPCT,它整合了拒绝微调和基于规则的RL。前者作为冷启动。

拒绝微调(冷启动) 拒绝微调阶段的核心思想是使GRM生成格式正确和适用于各种输入类型的原则和批评。与之前的作品(Vu等, 2024; Cao等, 2024; Alexandru等, 2025)混合不同格式的单个、成对和多个响应的RM数据不同,我们采用逐点GRM,如第2.1节所述,灵活地为任何数量的响应在同一格式下生成奖励。对于数据构建,除了通用指令数据外,我们还从具有各种响应计数的RM数据中采样轨迹,使用预训练的GRMs给出查询及其响应。对于每个查询和相应的响应,采样次数为 。拒绝策略也是一致的,即拒绝预测奖励与真实值(错误)不符的轨迹,以及所有 轨迹正确的查询和响应(太容易)。正式地,设 表示查询 对应第 个响应 的真实奖励,

预测的逐点奖励 是正确的如果

保证真实奖励只包含一个最大值。然而,与先前的工作类似(Zhang等, 2025a),我们发现在有限采样配额内,预训练的GRMs难以为一部分查询及其对应的响应生成正确的奖励。因此,我们可选地在GRM提示中添加 ,称为提示采样,期望预测奖励与真实值一致,除了非提示采样。对于提示采样,每个查询及其对应的响应采样一次,只有在不正确时才拒绝轨迹。与先前的研究(Li等, 2024a; Mahan等, 2024)相比,我们观察到提示采样的轨迹有时会缩短生成的批评,特别是在推理任务中,表明在线RL对GRM的必要性和潜在益处。 基于规则的RL GRM进一步通过基于规则的在线RL进行微调。具体来说,我们使用GRPO的原始设置(Shao等, 2024)带有基于规则的结果奖励。在展开过程中,GRM根据输入查询和响应生成原则和批评,然后提取预测奖励并与真实值通过准确性规则进行比较。不像DeepSeek-AI(2025),不使用格式奖励。相反,应用更大的KL惩罚系数以确保格式并避免严重偏差。正式地,给定查询 和响应 的第 个输出 的奖励为

其中逐点奖励 从 中提取。奖励函数鼓励GRMs通过在线优化的原则和批评区分最佳响应,有利于有效的推理时间扩展。奖励信号可以从任何偏好数据集和标记的LLM响应无缝获取。

4 使用SPCT的推理时间扩展

为了进一步利用更多推理计算改进DeepSeek-GRM的通用奖励生成性能,我们探索了基于采样的策略以实现有效的推理时间可扩展性。前人工作中的推理时间扩展方法(Wang等, 2024c; Ankner等, 2024; Mahan等, 2024; Zhang等, 2025a)及其潜在限制在附录C.1中进行了分析。 带生成奖励的投票 回顾第2.1节的方法,逐点GRMs的投票过程定义为汇总奖励:

其中 是第 个响应 的最终奖励。由于 通常设定在一个小的离散范围内,例如 ,投票过程实际上将奖励空间扩展了 倍,并使GRM能够生成大量原则,这有助于最终奖励的质量和粒度。直观解释是,如果每个原则可以看作是判断视角的代理,那么更多的原则可能更准确地反映真实分布,从而实现扩展效果。值得注意的是,为了避免位置偏差和多样性,响应在采样前被打乱。 元奖励建模引导投票 DeepSeek-GRM的投票过程需要多次采样,并且由于随机性或模型限制,可能会有一些生成的原则和批评有偏差或低质量。因此,我们训练了一个元RM来引导投票过程。元RM是一个逐点标量RM,通过二进制交叉熵损失训练以识别DeepSeek-GRM生成的原则和批评的正确性, | 模型 | 奖励基准 | PPE偏好 | PPE正确性 | RMB | 总体 | | :–: | :–: | :–: | :–: | :–: | :–: | | 报告的公共模型结果 | | | | | | | Skyoverk-Reward-Gemma-2-27B | 94.1 | 56.6 | 56.6 | 60.2 | 66.9 | | DeepSeek-V2.5-0905 | 81.5 | 62.8 | 58.5 | 65.7 | 67.1 | | Gemini-1.5-Pro | 86.8 | 66.1 | 59.8 | 56.5 | 67.3 | | ArnoRM-8B-v0.1 | 90.4 | 60.6 | 61.2 | 64.6 | 69.2 | | InternLM2-20B-Reward | 90.2 | 61.0 | 63.0 | 62.9 | 69.3 | | LLaMA-3.1-70b-Instruct | 84.1 | 65.3 | 59.2 | 68.9 | 69.4 | | Claude-3.5-sonnet | 84.2 | 65.3 | 58.8 | 70.6 | 69.7 | | Nemotron-4-340B-Reward | 92.0 | 59.3 | 60.8 | 69.9 | 70.5 | | GPT-4o | 86.7 | 67.1 | 57.6 | 73.8 | 71.3 | | 还原基线方法的结果 | | | | | | | LLM-as-a-Judge | 83.4 | 64.2 | 58.8 | 64.8 | 67.8 | | DeepSeek-BTRM-27B | 81.7 | 68.3 | 66.7 | 57.9 | 68.6 | | CLoud-Gemma-2-27B | 82.0 | 67.1 | 62.4 | 63.4 | 68.7 | | DeepSeek-PairRM-27B | 87.1 | 65.8 | 64.8 | 58.2 | 69.0 | | 我们方法的结果 | | | | | | | DeepSeek-GRM-27B-RFT(我们的) | 84.5 | 64.1 | 59.6 | 67.0 | 68.8 | | DeepSeek-GRM-27B(我们的) | 86.0 | 64.7 | 59.8 | 69.0 | 69.9 | | 推理时间扩展的结果(Voting@32) | | | | | | | DeepSeek-GRM-27B(我们的) | 88.5 | 65.3 | 60.4 | 69.0 | 71.0 | | DeepSeek-GRM-27B(MetaRM)(我们的) | 90.4 | 67.2 | 63.2 | 70.3 | 72.8 |

表2:不同方法和模型在RM基准测试中的整体结果。下划线数字表示最佳性能,粗体数字表示基线和我们方法中的最佳性能,斜体字体表示标量或半标量RMs。对于元RM引导的投票(MetaRM),。 标签基于方程4确定。数据集包括RFT阶段的非提示采样轨迹,还包括来自DeepSeekGRM的采样轨迹以供引导,以提供足够的正负奖励并缓解训练和推理策略之间的差距,正如Chow等人(2025)所建议的那样。引导投票很简单:元RM为采样奖励输出元奖励,最终结果由具有最高元奖励的奖励投票决定,从而过滤掉低质量样本。

5 在奖励建模基准上的结果

5.1 实验设置

基准和评估指标 我们在不同领域的各种RM基准上评估不同方法的性能:Reward Bench(Lambert等, 2024),PPE(Frick等, 2025),RMB(Zhou等, 2025),ReaLMistake(Kamoi等, 2024)。我们使用每个基准的标准评估指标:Reward Bench、PPE和RMB中从一组响应中挑选最佳响应的准确性,以及ReaLMistake的ROC-AUC。为了处理多个响应预测奖励的平局情况,我们打乱响应顺序并根据确定最佳响应,其中是-th响应打乱后的预测奖励。详情见附录D。 方法实现 对于基线方法,我们重新实现了LLM-as-a-Judge(Zheng等, 2023),DeepSeek-BTRM-27B(Kendall & Smith, 1940),CLoud-Gemma-2-27B(Ankner等, 2024)和DeepSeek-PairRM-27B(Jiang等, 2023),基于Gemma-2-27B(Team, 2024),并使用与DeepSeekGRM兼容的所有训练数据和设置。对于我们的方法,我们基于Gemma-227B实现了DeepSeek-GRM-27B-RFT,并在不同规模的LLMs上实施了DeepSeek-GRM,包括DeepSeek-V2-Lite(16B MoE)(DeepSeek-AI, 2024a),Gemma-2-27B,DeepSeek-V2.5(236B MoE),和DeepSeek-V3(671B MoE)(DeepSeek-AI, 2024b)。元RM在Gemma-2-27B上进行训练。默认结果使用贪婪解码报告,推理时间扩展使用温度 。其他细节见附录C.2。 | 模型 | 整体 | | :–: | :–: | | 报告的公共模型结果 | | | Nemotron-4-340B-Record | 70.5 | | GPT-4o | 71.3 | | 推理时间扩展结果(Voting@1) | | | LLM-as-a-Judge | 67.0 | | CLoud-Gemma-2-27B | 68.5 | | DeepSeek-GRM-27B-RFT(我们的) | 67.8 | | DeepSeek-GRM-27B(我们的) | 67.9 | | 推理时间扩展结果(Voting@8) | | | LLM-as-a-Judge | | | LLM-as-a-Judge w/ TokenProb | | | CLoud-Gemma-2-27B | | | DeepSeek-GRM-27B-RFT(我们的) | | | DeepSeek-GRM-27B(我们的) | | | DeepSeek-GRM-27B (MetaRM)(我们的) | | | 推理时间扩展结果(Voting@32) | —— | | DeepSeek-GRM-27B(我们的) | | | DeepSeek-GRM-27B (MetaRM)(我们的) | |

表3:不同方法在RM基准上的推理时间可扩展性结果。设置与表2相同。

方法整体
贪婪解码结果
DeepSeek-GRM-27B69.9
w/o 原则生成67.5
w/o 拒绝采样68.7
DeepSeek-GRM-27B-RFT68.8
w/o 提示采样 ( )68.0
w/o 非提示采样 ( )67.4
w/o 拒绝采样 ( $$ & )66.1
w/o 通用指令数据63.3
推理时间扩展结果 (Voting@8)
DeepSeek-GRM-27B70.6
w/o 原则生成68.0
推理时间扩展结果 (Voting@32)
DeepSeek-GRM-27B71.0
DeepSeek-GRM-27B ( )71.5
DeepSeek-GRM-27B ( )72.7
DeepSeek-GRM-27B ( )72.8

表4:对所提出的SPCT的不同组件进行消融研究的结果。粗体数字表示最佳性能。

5.2 结果与分析

RM基准上的性能 表2显示了不同方法和模型在RM基准上的整体结果。我们将DeepSeek-GRM-27B的性能与公共模型的报告结果和基线方法的重现结果进行了比较。我们发现,DeepSeek-GRM-27B在整体性能上优于基线方法,并且在强大的公共RMs(如Nemotron-4-340B-Reward和GPT-4o)中表现出竞争力;通过推理时间扩展,DeepSeek-GRM-27B可以进一步改进并取得最佳的整体结果。对于详细比较,标量(DeepSeek-BTRM-27B, DeepSeek-PairRM-27B)和半标量(CLoud-Gemma-2-27B)RMs在不同基准测试中表现出偏向结果,在可验证任务(PPE正确性)中的表现显著优于所有生成式RMs,但在其他基准测试中分别失败。然而,大多数公共标量RMs也表现出严重的领域偏差。LLM-as-a-Judge显示出与DeepSeek-GRM-27B相似的趋势但性能较低,可能是因为缺乏原则指导。总之,SPCT提高了GRMs的通用奖励生成能力,相比标量和半标量RMs具有明显更少的偏差。 推理时间可扩展性 不同方法的推理时间可扩展性结果如表3所示,整体趋势如图1所示。详情见附录D.3。在最多8个样本的情况下,我们发现DeepSeek-GRM-27B相对于贪婪解码和采样结果具有最高的性能提升。DeepSeek-GRM-27B还展示了通过增加推理计算来提高性能的强大潜力,最多达到32个样本。元RM也在每个基准测试中揭示了其在过滤低质量轨迹方面的有效性。带有标记概率投票的LLM-as-a-Judge也显示了显著的性能提升,表明标记概率作为定量权重可以帮助单纯的多数投票的可靠性。对于CLoud-Gemma-2-27B,性能提升有限,主要是由于标量奖励生成缺乏方差,即使批评已经改变了很多。总之,SPCT提高了GRMs的推理时间可扩展性,而元RM进一步增强了在一般情况下的扩展性能。 推理和训练成本扩展 我们进一步研究了DeepSeek-GRM-27B的推理时间和训练时间扩展性能,通过后训练不同规模的LLMs。这些模型在Reward Bench上进行了测试,结果如图4所示。我们发现,直接使用DeepSeek-GRM-27B的32个样本投票可以达到与671B MoE模型相当的性能,而使用元RM引导投票可以在8个样本时达到最佳结果,这表明DeepSeek-GRM-27B的推理时间扩展效果比扩展模型规模更为有效。此外,我们使用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236B MoE RFT模型,这表明扩展长链思考以解决推理任务并不能显著提高通用RM的性能。

6 相关工作

生成式奖励模型 GRMs代表了从标量RMs(Ouyang等, 2022)范式的转变,将奖励建模为文本反馈或评分。(Li等, 2024a; Kim等, 2024; Wang等, 2024c; Cao等, 2024; Vu等, 2024; Alexandru等, 2025),使奖励表示更加丰富,并能更灵活地判断单个和多个响应。先前的方法LLM-as-a-judge(Zheng等, 2023)适应了基于参考或无参考的成对判断以评估LLMs。最近的研究使用离线RL,例如DPO(Rafailov等, 2023),来训练GRMs(Wu等, 2024; Mahan等, 2024; Yu等, 2025a; Ye等, 2025),结合工具和外部知识与GRMs(Li等, 2024b; Peng等, 2025),甚至将GRMs作为接口来调整环境中的奖励(Baker等, 2025)。尽管这些方法在效率方面面临挑战,但它们展示了在大规模改进奖励方面的潜力,朝着更通用的奖励系统迈进。 LLMs的推理时间扩展 LLMs的推理时间扩展已成为与训练时间扩展平行的关键研究方向。研究重点是采样和RM引导的聚合(Lightman等, 2024; Brown等, 2024; Snell等, 2025; Wu等, 2025)。最近,由LLMs激励的长链思考(Wei等, 2022)在改善模型的推理能力方面显示出有希望的结果(OpenAI, 2024; DeepSeek-AI, 2025; OpenAI, 2025c),这是另一种形式的推理时间扩展。还有研究使用可扩展的奖励或验证器来提高策略模型的性能,包括编码(Chen等, 2023)、推理(Lifshitz等, 2025)等领域。 因此,本工作中发展的推理时间可扩展通用RMs也可能通过推理时间共扩展贡献于策略模型的一般性能。

7 结论和未来工作

我们介绍了自原则批评调整(SPCT),这是一种增强通用奖励建模推理时间可扩展性的方法。通过基于规则的在线RL,SPCT实现了原则和批评的自适应生成,显著提升了GRMs在不同领域的奖励质量和推理时间可扩展性。实证结果表明,DeepSeek-GRM超越了基线方法和一些强大的公共RMs,并通过推理时间扩展特别是元RM的引导显示了显著的改进。未来的方向可能包括将GRMs集成到在线RL管道中作为奖励系统的多功能接口,探索与策略模型的推理时间共扩展,或者作为基础模型的稳健离线评估者。

伦理声明

我们提出的方法,自原则批评调整(SPCT),旨在增强生成式奖励模型(GRMs)在通用域中的推理时间可扩展性。虽然这项进展促进了奖励建模的准确性和一致性,但有几个伦理影响可能需要明确考虑。 首先,尽管通过我们的实证分析,DeepSeek-GRM在不同领域中表现出较少的偏见,但自动化生成的原则和批评可能会无意中延续或放大有毒训练数据中的偏见。我们认为应优先进行元RM和其他偏见缓解策略的进一步研究,以确保公平的结果。此外,我们的方法并不旨在减少人类监督。相反,我们提倡保持“人在回路”框架,并开发可靠的代理方法,如SPCT,以更高效和有效地扩展人类监督。 其次,跨不同领域应用推理时间可扩展GRMs可能会引发关于透明度、问责制等方面的担忧。我们在第5.2节中展示了模型能力并在附录B中列出了局限性,并在公众监督下开源模型,这对于维护信任和确保负责任地部署该工件至关重要。 最后,跨多种RM基准和实际场景进行稳健验证和持续警惕仍然关键。DeepSeek-GRM的合乎道德的使用需要主动管理风险并持续针对偏见进行评估,这需要在RM评估研究方面的努力。

参考文献

Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger, Max Bartolo, Roman Engeler, Sashank Pisupati, Toby Drane, 和 Young Sun Park. Atla Selene Mini: 一种通用评估模型。计算研究存储库, arXiv:2501.17195, 2025. URL https://arxiv.org/abs/2501.17195.

Wei An, Xiao Bi, Guanting Chen, Shanhuang Chen, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Wenjun Gao, Kang Guan, Jianzhong Guo, Yongqiang Guo, Zhe Fu, Ying He, Panpan Huang, Jiashi Li, Wenfeng Liang, Xiaodong Liu, Xin Liu, Yiyuan Liu, Yuxuan Liu, Shanghao Lu, Xuan Lu, Xiaotao Nie, Tian Pei, Junjie Qiu, Hui Qu, Zehui Ren, Zhangli Sha, Xuecheng Su, Xiaowen Sun, Yixuan Tan, Minghui Tang, Shiyu Wang, Yaohui Wang, Yongji Wang, Ziwei Xie, Yiliang Xiong, Yanhong Xu, Shengfeng Ye, Shuiping Yu, Yukun Zha, Liyue Zhang, Haowei Zhang, Mingchuan Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, 和 Yuheng Zou. Fireflyer AI-HPC: 一种高性价比的软硬件协同设计用于深度学习。计算研究存储库, arXiv:2408.14158, 2024. URL https://arxiv.org/abs/2408.14158. Zachary Ankner, Mansheej Paul, Brandon Cui, Jonathan D. Chang, 和 Prithviraj Ammanabrolu. 公开奖励模型。计算研究存储库, arXiv:2408.11791, 2024. URL https://arxiv.org/abs/2408.11791.

Negar Arabzadeh, Siqing Huo, Nikhil Mehta, Qingyun Wu, Chi Wang, Ahmed Hassan Awadallah, Charles L. A. Clarke, 和 Julia Kiseleva. 在LLM驱动的应用程序中评估和验证任务效用。Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen 编辑,《2024年经验方法自然语言处理会议论文集》,pp. 21868-21888, 美国佛罗里达州迈阿密,2024年11月。计算语言学协会。doi: 10.18653/v1/2024.emnlp-main.1219. URL https://aclanthology.org/ 2024.emnlp-main.1219/.

Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson Kernion, Tom Conerly, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Tristan Hume, Scott Johnston, Shauna Kravec, Liane Lovitt, Neel Nanda, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Ben Mann, 和 Jared Kaplan. 使用来自人类反馈的强化学习训练一个有用且无害的助手。计算研究存储库, arXiv:2204.05862, 2022a. URL https://arxiv.org/abs/2204.05862.

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, 和 Jared Kaplan. 宪法AI:来自AI反馈的无害性。计算研究存储库, arXiv:2212.08073, 2022b. URL https://arxiv.org/abs/2212.08073.

Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, 和 David Farhi. 监控推理模型的行为及其促进混淆的风险。OpenAI出版物, 2025. URL https: //http://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf.

Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, 和 Azalia Mirhoseini. 大型语言猴子:通过重复采样扩展推理计算。计算研究存储库, arXiv:2407.21787, 2024. URL https: //http://arxiv.org/abs/2407.21787.

Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, 和 Dahua Lin. InternLM2 技术报告。计算研究存储库, arXiv:2403.17297, 2024. URL https://arxiv.org/abs/2403.17297. Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, 和 Kai Chen. CompassJudger-1: 全功能判断模型帮助模型评估和进化。计算研究存储库, arXiv:2410.16256, 2024. URL https://arxiv.org/abs/2410. 16256.

Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, 和 Weizhu Chen. CodeT: 使用生成测试的代码生成。第十一届国际学习表示会议, 2023. URL https://openreview.net/forum?id= ktrw68Cmu9c.

Yinlam Chow, Guy Tennenholtz, Izzeddin Gur, Vincent Zhuang, Bo Dai, Aviral Kumar, Rishabh Agarwal, Sridhar Thiagarajan, Craig Boutilier, 和 Aleksandra Faust. 大型语言模型的最佳-of-n采样推理感知微调。第十三届国际学习表示会议, 2025. URL https://openreview.net/ forum?id=77gQUdQhE7.

Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, 和 John Schulman. 训练验证器解决数学问题。计算研究存储库, arXiv:2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.

Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, 和 Maosong Sun. ULTRA-FEEDBACK: 利用规模化AI反馈提升语言模型。在 Ruslan Salakhutdinov, Zico Kolter, Katherine Heller, Adrian Weller, Nuria Oliver, Jonathan Scarlett, 和 Felix Berkenkamp(编辑)的《第四十一届国际机器学习会议论文集》中,卷235的《机器学习研究论文集》,pp. 9722-9744. PMLR, 2024年7月21日至27日。URL https://proceedings.mlr.press/v235/cui24f.html.

DeepSeek-AI. Deepseek-v2: 强大、经济、高效的专家混合模型。计算研究存储库, arXiv:2405.04434, 2024a. URL https://arxiv.org/ abs/2405.04434.

DeepSeek-AI. Deepseek-v3 技术报告。计算研究存储库, arXiv:2412.19437, 2024b. URL https://arxiv.org/abs/2412.19437.

DeepSeek-AI. Deepseek-r1: 通过强化学习激励LLMs的推理能力。计算研究存储库, arXiv:2501.12948, 2025. URL https://arxiv.org/ abs/2501.12948.

Jan-Philipp Fränken, Eric Zelikman, Rafael Rafailov, Kanishk Gandhi, Tobias Gerstenberg, 和 Noah Goodman. 使用互信息的自我监督对齐:无需偏好标签学习遵循原则。第三十八届年度神经信息处理系统会议,2024. URL https://openreview.net/forum?id= UvbpbEhGaw.

Evan Frick, Tianle Li, Connor Chen, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Jiantao Jiao, Banghua Zhu, Joseph E. Gonzalez, 和 Ion Stoica. 如何评估用于RLHF的奖励模型。第十三届国际学习表示会议, 2025. URL https://openreview.net/forum?id=cbttLtO94Q.

Leo Gao, John Schulman, 和 Jacob Hilton. 奖励模型过度优化的扩展规律。在 Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, 和 Jonathan Scarlett(编辑)的《第四十届国际机器学习会议论文集》中,卷202的《机器学习研究论文集》,pp. 10835-10866. PMLR, 2023年7月23日至29日。URL https://proceedings.mlr.press/v202/gao23h.html.

Amelia Glaese, Nat McAleese, Maja Trębacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soña Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, 和 Geoffrey Irving. 通过目标人类判断改进对话代理的对齐。计算研究存储库, arXiv:2209.14375, 2022. URL https: //http://arxiv.org/abs/2209.14375.

Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Le Yan, Qi Zhu, 和 Yue Zhang. McRanker: 在线生成多样化标准以改进逐点LLM排名器。第十八届ACM国际网络搜索和数据挖掘会议论文集, WSDM ’25, pp. 944-953, 美国纽约州纽约市, 2025. 计算机学会。ISBN 9798400713293. doi: 10.1145/3701551.3703583. URL https://doi.org/10.1145/ 3701551.3703583 .

Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 使用MATH数据集测量数学问题解决能力。第三十五届神经信息处理系统会议数据集和基准轨道(第二轮),2021. URL https://openreview.net/forum?id=78ywt2mQsCe.

Dongfu Jiang, Xiang Ren, 和 Bill Yuchen Lin. LLM-blender: 通过配对排名和生成融合组合大型语言模型。Anna Rogers, Jordan Boyd-Graber, 和 Naoaki Okazaki(编辑)的《第六十一届计算语言学年会论文集》(第一卷:长篇论文),pp. 14165-14178, 加拿大多伦多,2023年7月。计算语言学协会。doi: 10.18653/v1/2023.acl-long.792. URL https://aclanthology.org/2023.acl-long.792/.

Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, 和 Karthik R Narasimhan. SWE-bench: 语言模型能否解决现实世界的GitHub问题?第十二届国际学习表示会议, 2024. URL https://openreview.net/forum?id=VTF8yNQM66.

Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Haoran Ranran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, 和 Rui Zhang. 评估LLMs检测LLM响应错误的能力。第一届语言建模会议, 2024. URL https://openreview.net/forum?id=dnwR5cljXr. M. G. Kendall 和 B. Babington Smith. 成对比较法。Biometrika, 31(3/4):324-345, 1940. ISSN 00063444. URL http://www.jstor.org/stable/2332613.

Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, 和 Minjoon Seo. Prometheus 2: 开源语言模型,专注于评估其他语言模型。Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen(编辑)的《2024年经验方法自然语言处理会议论文集》,pp. 4334-4353, 美国佛罗里达州迈阿密,2024年11月。计算语言学协会。doi: 10.18653/v1/2024. emnlp-main.248. URL https://aclanthology.org/2024.emnlp-main.248/.

Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, 和 Hannaneh Hajishirzi. Rewardbench: 评估语言建模的奖励模型。计算研究存储库, arXiv:2403.13787, 2024. URL https://arxiv.org/abs/2403. 13787.

Junlong Li, Shichao Sun, Weizhe Yuan, Run-Ze Fan, hai zhao, 和 Pengfei Liu. 生成法官以评估对齐。第十二届国际学习表示会议, 2024a. URL https://openreview.net/forum?id=gtkFw6sZGS.

Lei Li, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang, 和 Hua Wu. 工具增强奖励建模。第十二届国际学习表示会议, 2024b. URL https://openreview.net/forum?id=d94x0gWTUX.

Shalev Lifshitz, Sheila A. McIlraith, 和 Yilun Du. 多代理验证:使用多个验证器扩展测试时间计算。计算研究存储库, arXiv:2502.20379, 2025. URL https://arxiv.org/abs/2502.20379. Hunter Lightman, Vineet Kosaraju, Yuri Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, 和 Karl Cobbe. 让我们逐步验证。第十二届国际学习表示会议, 2024. URL https: //http://openreview.net/forum?id=v8L0pN6E0i.

Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, 和 Yahui Zhou. Skywork-reward: LLMs奖励建模的技巧包。计算研究存储库, arXiv:2410.18451, 2024. URL https://arxiv.org/abs/2410. 18451.

Yantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, 和 Juanzi Li. Pairjudge RM: 使用淘汰赛进行最佳-of-n抽样。计算研究存储库, arXiv:2501.13007, 2025. URL https://arxiv.org/abs/2501.13007.

Dakota Mahan, Duy Van Phung, Rafael Rafailov, Chase Blagden, Nathan Lile, Louis Castricato, Jan-Philipp Fränken, Chelsea Finn, 和 Alon Albalak. 生成式奖励模型。计算研究存储库, arXiv:2410.12832, 2024. URL https://arxiv.org/abs/2410. 12832 .

Tong Mu, Alec Helyar, Johannes Heidecke, Joshua Achiam, Andrea Vallone, Ian D Kivlichan, Molly Lin, Alex Beutel, John Schulman, 和 Lilian Weng. 规则奖励以提高语言模型安全性。第三十八届年度神经信息处理系统会议, 2024. URL https://openreview.net/forum?id=QVtwpT5Dmg.

OpenAI. OpenAI O1系统卡片。计算研究存储库, arXiv:2412.16720, 2024. URL https://arxiv.org/abs/2412.16720.

OpenAI. 深度研究系统卡片。OpenAI出版物, 2025a. URL https://cdn.openai. com/deep-research-system-card.pdf.

OpenAI. OpenAI GPT-4.5系统卡片。OpenAI出版物, 2025b. URL https://cdn.openai. com/gpt-4-5-system-card-2272025.pdf.

OpenAI. OpenAI O3-mini系统卡片。OpenAI出版物, 2025c. URL https://cdn.openai. com/o3-mini-system-card-feb10.pdf.

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, 和 Ryan Lowe. 使用人类反馈训练语言模型以遵循指令。第三十六届神经信息处理系统国际会议论文集, NIPS ’22, 纽约红钩, 2022. Curran Associates Inc. ISBN 9781713871088 .

Junsoo Park, Seungyeon Jwa, Ren Meiying, Daeyoung Kim, 和 Sanghyuk Choi. OffsetBias: 利用去偏数据进行评估器调优。Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen(编辑)的《EMNLP 2024计算语言学协会发现》, pp. 1043-1067, 美国佛罗里达州迈阿密, 2024年11月。计算语言学协会。doi: 10.18653/v1/2024.findings-emnlp.57. URL https://aclanthology.org/ 2024.findings-emnlp.57/.

Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, 和 Juanzi Li. 代理奖励建模:将人类偏好与可验证的正确性信号相结合以构建可靠的奖励系统。计算研究存储库, arXiv:2502.19328, 2025. URL https://arxiv.org/abs/2502.19328.

Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, 和 Chelsea Finn. 直接偏好优化:你的语言模型实际上是一个奖励模型。第三十七届神经信息处理系统会议, 2023. URL https://openreview.net/forum?id=HPuSIXJaa9. Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, 和 Daya Guo. DeepseekMath: 推动开放语言模型中的数学推理极限。计算研究存储库, arXiv:2402.0330, 2024. URL https://arxiv.org/abs/2402.03300.

Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O’Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, 和 Ethan Perez. 宪法分类器:防范数千小时红队攻击中的普遍越狱行为。计算研究存储库, arXiv:2501.18837, 2025. URL https://arxiv.org/abs/2501.18837.

Charlie Victor Snell, Jaehoon Lee, Kelvin Xu, 和 Aviral Kumar. 最优扩展LLM测试时间计算比扩展参数在推理方面更有效。第十三届国际学习表示会议, 2025. URL https:// http://openreview.net/forum?id=4FWAwZtd2n.

Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, 和 Paul Christiano. 学习从人类反馈中总结。第三十四届神经信息处理系统国际会议论文集, NIPS ’20, 纽约红钩, 2020. Curran Associates Inc. ISBN 9781713829546.

Zhiqing Sun, Yikang Shen, Qinhong Zhou, HongxinZhang, Zhenfang Chen, David Daniel Cox, Yiming Yang, 和 Chuang Gan. 原则驱动的自对齐语言模型:在最少人类监督下实现可靠奖励系统的生成。第三十七届神经信息处理系统会议,2023. URL https://openreview.net/forum?id=p40XRFBX96.

Gemma 团队. Gemma 2: 在实际规模上改进开放语言模型。计算研究存储库, arXiv:2408.0011, 2024. URL https://arxiv.org/abs/2408.00118.

Hemish Veeraboina. AIME问题集1983-2024,2023. URL https://www.kaggle.com/ datasets/hemishveeraboina’aime-problem-set-1983-2024.

Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, 和 Yun-Hsuan Sung. 基础自动评分者:驯服大型语言模型以实现更好的自动评估。Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen(编辑)的《2024年经验方法自然语言处理会议论文集》,pp. 17086-17105, 美国佛罗里达州迈阿密,2024年11月。计算语言学协会。doi: 10.18653/v1/2024.emnlp-main.949. URL https://aclanthology.org/2024.emnlp-main. 949/.

Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, 和 Tong Zhang. 可解释偏好:通过多目标奖励建模和专家组合进行评估。Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen(编辑)的《EMNLP 2024计算语言学协会发现》, pp. 10582-10592, 美国佛罗里达州迈阿密, 2024年11月。计算语言学协会。doi: 10.18653/v1/2024.findings-emnlp.620. URL https://aclanthology.org/2024.findings-emnlp.620/.

Peiyi Wang, Lei Li, Zhihong Shao, Runxin Xu, Damai Dai, Yifei Li, Deli Chen, Yu Wu, 和 Zhifang Sui. Math-Shepherd: 验证并强化LLMs逐步推理而无需人工注释。Lun-Wei Ku, Andre Martins, 和 Vivek Srikumar(编辑)的《第六十二届计算语言学年会论文集》(第一卷:长篇论文),pp. 9426-9439, 泰国曼谷, 2024年8月。计算语言学协会。doi: 10.18653/v1/2024.acl-long.510. URL https://aclanthology.org/2024. acl-long.510/.

Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, 和 Xian Li. 自我教授评估者。计算研究存储库, arXiv:2408.02666, 2024c. URL https://arxiv. org/abs/2408.02666.

Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, 和 Oleksii Kuchaiev. Helpsteer 2: 开源数据集用于训练顶级性能奖励模型。第三十八次神经信息处理系统会议数据集和基准轨道, 2024d. URL https: //http://openreview.net/forum?id=PvVKUFhaNy.

Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, 和 Yi Dong. Helpsteer2-preference: 用偏好补充评分。第十三届国际学习表示会议, 2025. URL https://openreview.net/forum?id=MnfHxPP5gs.

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, 和 Denny Zhou. 链式思维提示法激发了大语言模型中的推理能力。Alice H. Oh, Alekh Agarwal, Danielle Belgrave, 和 Kyunghyun Cho(编辑)的《神经信息处理系统进展》,2022. URL https://openreview. net/forum?id=_VjQlMeSB_J.

Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, 和 Derry Tanti Wijaya. Metametrics: 使用人类偏好校准生成任务的指标。第十三届国际学习表示会议, 2025. URL https: //http://openreview.net/forum?id=s103xTt4CG.

Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, 和 Sainbayar Sukhbaatar. 元奖励语言模型:使用LLM作为元评估器进行自我改进对齐。计算研究存储库, arXiv:2407.19594, 2024. URL https://arxiv.org/abs/2407.19594.

Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, 和 Yiming Yang. 推理扩展定律:对LLM解决问题的计算最优推理的经验分析。第十三届国际学习表示会议, 2025. URL https: //http://openreview.net/forum?id=VNckp7JEHn.

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, 和 Tao Yu. OSWorld: 为真实计算机环境中的开放式任务评估多模态代理。第三十八次神经信息处理系统会议数据集和基准轨道, 2024. URL https://openreview.net/forum?id=tN61DTr4Ed.

Shunyu Yao, Howard Chen, John Yang, 和 Karthik R Narasimhan. Webshop: 朝着具有基础语言代理的大规模现实世界网络交互迈进。Alice H. Oh, Alekh Agarwal, Danielle Belgrave, 和 Kyunghyun Cho(编辑)的《神经信息处理系统进展》,2022. URL https://openreview.net/forum?id=R9KnuFlvnU.

Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, 和 Matthias Gallé. 使用合成批评改进奖励模型。计算研究存储库, arXiv:2405.20850, 2024. URL https://arxiv.org/abs/2405.20850.

Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, 和 Yiqun LIU. 学习LLM-as-a-judge进行偏好对齐。第十三届国际学习表示会议, 2025. URL https://openreview.net/forum?id= HZVIQE1MsJ.

Jiachen Yu, Shaoning Sun, Xiaohui Hu, Jiaxu Yan, Kaidong Yu, 和 Xuelong Li. 提高LLM-as-a-judge作为一种通用能力。计算研究存储库, arXiv:2502.11689, 2025a. URL https://arxiv.org/abs/2502.11689.

Yue Yu, Zhengxing Chen, Aston Zhang, Liang Tan, Chenguang Zhu, Richard Yuanzhe Pang, Yundi Qian, Xuewei Wang, Suchin Gururangan, Chao Zhang, Melanie Kambadur, Dhruv Mahajan, 和 Rui Hou. 自生成批评增强了语言模型的奖励建模。计算研究存储库, arXiv:2411.16646, 2025b. URL https: //http://arxiv.org/abs/2411.16646.

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, 和 Jason E Weston. 自奖励语言模型。Ruslan Salakhutdinov, Zico Kolter, Katherine Heller, Adrian Weller, Nuria Oliver, Jonathan Scarlett, 和 Felix Berkenkamp(编辑)的《第四十一届国际机器学习会议论文集》,卷235的《机器学习研究论文集》,pp. 57905-57923. PMLR, 2024年7月21日至27日。URL https://proceedings.mlr.press/v235/yuan24d.html.

Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, 和 Rishabh Agarwal. 生成验证器:将奖励建模视为下一个标记预测。第十三届国际学习表示会议, 2025a. URL https://openreview. net/forum?id=Ccwp4tFEtE.

Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, 和 Junyang Lin. 开发过程奖励模型的教训在数学推理中。计算研究存储库, arXiv:2501.07301, 2025b. URL https://arxiv.org/abs/2501.07301.

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, 和 Ion Stoica. 用MT-Bench和聊天机器人竞技场评判LLM-as-a-Judge。第三十七届神经信息处理系统国际会议论文集, NIPS ’23, 纽约红钩, 2023. Curran Associates Inc.

Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, 和 Xuanjing Huang. RMB: 全面评估LLM对齐的奖励模型基准。第十三届国际学习表示会议, 2025. URL https:// http://openreview.net/forum?id=kmgr1G9TR0.

Terry Yue Zhuo, Vu Minh Chien, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen GONG, James Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, 和 Leandro Von Werra. BigCodeBench: 使用多样函数调用和复杂指令评估代码生成的基准。第十三届国际学习表示会议, 2025. URL https://openreview.net/ forum?id=YrycTjl1L0. 内容 1 引言 ….. 1 2 基础知识 ….. 3 2.1 不同RM方法的比较 ….. 3 2.2 使用原则提升奖励质量 ….. 4 3 自原则批评调整 (SPCT) ….. 4 3.1 从理解到生成解绑原则 ….. 4 3.2 规则为基础的强化学习 ….. 5 4 使用SPCT进行推理时间扩展 ….. 6 5 奖励建模基准上的结果 ….. 7 5.1 实验设置 ….. 7 5.2 结果与分析 ….. 8 6 相关工作 ….. 9 7 结论与未来工作 ….. 10 A 更多相关工作 ….. 20 B 局限性与未来方向 ….. 20 C 实现细节 ….. 21 C. 1 不同RM方法的比较 ….. 21 C. 2 模型训练 ….. 22 C. 3 基线实现 ….. 23 D 实验细节 ….. 24 D. 1 超参数 ….. 24 D. 2 基准测试 ….. 25 D. 3 详细结果 ….. 26 E 更多实验 ….. 27 E. 1 逐点GRM方法的输入灵活性 ….. 27 E.1.1 为多个响应生成奖励 ….. 27 E.1.2 为单个响应生成奖励 ….. 27 E.1.3 使用参考生成奖励 ….. 27 E. 2 生成原则的可转移性 ….. 28 E. 3 超越训练数据的泛化 ….. 28 E. 4 规则为基础的RL的响应长度分析 ….. 28 F 定性分析 ….. 29 F. 1 案例研究 ….. 29 F. 2 失败模式分析 ….. 38 G 提示模板 ….. 39

图5:SPCT管道中DeepSeek-GRM-RFT、DeepSeek-GRM和Meta RM的推导说明。

A 更多相关工作

宪法AI 宪法AI已出现作为传统从人类反馈中进行强化学习的可扩展替代方案(Ouyang等, 2022),旨在通过一组指导原则或“宪法”使语言模型与人类价值观对齐(Bai等, 2022b; Sun等, 2023),用AI生成的反馈(Fränken等, 2024)或基于这些手工原则的分类器(Sharma等, 2025)代替人类批评。类似地,基于规则的方法如Sparrow(Glaese等, 2022)和基于规则的奖励(RBR)(Mu等, 2024)将明确的自然语言规则纳入特定领域的训练循环。尽管有效,但这些方法依赖于静态、手动编写的宪法,其范围有限,可能存在偏差且不够灵活。这激发了对自动化生成或改进原则的兴趣,这与我们本工作中的目标一致。

标量奖励模型 标量奖励建模是最早提出用于LLMs的服务模型(Stiennon等, 2020; Gao等, 2023)。近期研究集中在Bradley-Terry建模(Kendall & Smith, 1940)和其他回归方法上,以提高标量奖励模型的表达性(Cai等, 2024; Wang等, 2024d;a; Liu等, 2024; Wang等, 2025)。相比之下,过程奖励模型被提议作为推理问题的步骤验证器,例如数学等领域,提供丰富的反馈(Cobbe等, 2021; Wang等, 2024b; Zhang等, 2025b),展示了标量RMs在具有广泛推理和知识的形式领域中的可行性。标量RM以其简单性和计算效率著称,但在表达性和跨多样化输入类型的泛化以及推理时间微调奖励信号方面受到限制。

半标量奖励模型 半标量奖励模型旨在通过文本中间表示丰富标量奖励信号。(Ye等, 2024; Ankner等, 2024)因此,一些研究(Yu等, 2025b)提出了增强生成批评的质量以最终改善奖励生成。一些研究使用令牌概率代替标量头进行奖励提取(Mahan等, 2024; Zhang等, 2025a)。这些研究表明,半标量RMs在基于采样和投票的推理时间扩展方面面临挑战,导致性能提升有限。半标量方法在效率和有效性之间权衡标量RMs和GRMs。

B 局限性与未来方向

局限性 尽管SPCT显著提升了GRMs的性能和推理时间可扩展性,并在通用领域超越了(半)标量RMs,但仍存在一些局限性。(1) 生成式RMs的效率天然落后于相同规模的标量RMs,这抑制了其在在线RL管道中的大规模使用。然而,由于我们采用并行采样进行推理时间扩展,合理数量(如八个采样)的奖励生成延迟不会显著增加。围绕LLMs的有效生成和RM应用创新的研究可以缓解这一问题。(2) 在可验证任务等特定领域中,DeepSeek-GRM仍然落后于标量模型。这可能是因为标量RMs捕获了推理查询和响应中的隐藏特征,而GRMs需要更强的推理能力来彻底检查响应。然而,标量RMs遭受严重的偏见和可扩展性问题。对于GRMs,我们发现基于参考的奖励生成(附录E.1.3)和长期推理(附录D.3)可以缓解这一局限。(3) 由于逐点GRM方法的普遍性,DeepSeek-GRM除了作为结果RM外,还可以潜在地作为过程RM使用。尽管我们在本文中未深入探索这一方向,但Reward Bench的推理子集中主要包含MATH-prm数据(Lightman等, 2024),部分支持这一应用的潜力。

未来方向 基于SPCT或DeepSeek-GRM模型的未来研究有几个有前途的方向。(1) 已有的研究探讨了工具融入RMs(Li等, 2024b),也可以用于DeepSeek-GRM增强。通过诸如代码解释器和搜索引擎接口等工具,生成的批评可以更准确适用于严格程序或广泛知识的任务,并避免GRMs无法遵循与数值计算、模式匹配等相关原则的情况。(2) 原则和批评的生成范式可以分解为单独的阶段,即原则可以提前为每个查询和待评价的响应生成并存储,然后使用GRMs、规则或其他代理方法生成批评。原则生成作为后续批评的接口。这可能会提高当前GRMs在RL管道集成中的效率。(3) DeepSeek-GRM可以在LLM离线评估中潜在使用。由于每个原则反映一个标准,我们可以从所有数据点中获取一个特定LLM不如另一个LLM的标准,作为该特定LLM弱点的可解释协议。(4) DeepSeek-GRM可能会受益于长期推理。然而,这将进一步影响其效率。这些方向应在未来的进一步研究中探讨。

C 实现细节

C. 1 不同RM方法的比较

奖励生成范式 经典RMs采用(a)标量方法生成奖励,它对标给定查询和响应赋值。标量方法进一步扩展到(b)半标量方法,除了标量值还生成文本。并且(c)生成方法只生成文本奖励。

其中是查询,是第个响应,是由参数化的奖励函数,是标量奖励,是批评。

评分模式 我们区分两种主要的奖励评分方法:逐点和配对。逐点(i)方法为每个响应分配单独分数:

其中是一个分割函数。相反,配对(ii)方法可以看作是最佳-of-方法,从所有候选中选择单一最佳响应:

其中是一个选择函数,大多数情况下。虽然配对方法可以扩展到,但它不能应用于单个响应评分()。 代表性方法 图2展示了三种奖励生成范式(标量、半标量、生成式)如何与两种评分模式(逐点、配对)结合。具体来说,Bradley-Terry模型(Kendall & Smith, 1940)((a)+(i))使用配对偏好数据进行训练,并逐点输出标量奖励

PairRM(Jiang等, 2023)((a)+(ii))根据标量奖励符号比较一对响应

上述标量方法由于奖励生成缺乏多样性,几乎无法进行推理时间扩展。CLoud(Ankner等, 2024)((b)+(i))基于预生成的批评为每个响应生成标量奖励,类似于方程10。LLM-as-a-Judge(Zheng等, 2023) 文本判断成对响应的偏好顺序,

其中 从语言表示中提取最佳响应的索引。然而,这种方法默认忽略成对响应的平局。按照Zhang等(2025a),指示偏好顺序的令牌的概率可以用作标量奖励 ,其中 是与偏好顺序相关的预定义令牌。然而,在没有额外约束的情况下,GRMs能够仅在纯语言表示内为多个响应生成逐点奖励 :

其中 从生成结果中提取分配给每个响应的奖励。通常,奖励是离散的,在这项工作中我们默认分配 。这种方法有望允许同时进行推理时间扩展和输入灵活性。

带有生成奖励的投票 投票是RM中广泛采用的推理时间扩展方法。回想第2.1节中的方法,我们展示了半标量和生成式RMs的样本投票结果。对于半标量RMs(Ankner等, 2024; Zhang等, 2025a),投票是取平均值:

其中 是最终奖励。实际上,标量值的有限变化可能会阻碍可扩展性。对于配对GRMs(Mahan等, 2024; Wang等, 2024c),投票是选择被识别为最佳的响应,频率最高,即多数投票:

其中 是最终预测的最佳响应, 是选择函数, 是每个样本单独选择的最佳响应, 是指示函数。尽管投票过程是可扩展的,但由于不允许每个样本平局,多数投票的结果可能会有偏差,并且由于缺乏定量得分,可能无法区分响应之间的细微差异。

C. 2 模型训练

对于基于规则的在线RL,我们使用标准的GRPO设置(Shao等, 2024)。整体目标是

其中 是组大小, 是KL惩罚系数, 包含提示。我们对超参数 进行网格搜索,并发现 是最稳定的配置。而且,当KL系数过小时,GRM倾向于在基准的部分子集中崩溃,例如Reward Bench基准中的Chat子集和RMB基准中的无害性子集,并对其他领域表现出偏差。我们将 设为效率和性能之间的更好折衷。

训练集包括1250 K RFT数据,其中包括1070 K通用指令数据和186 K拒绝采样数据,以及237 K RL数据。通用指令数据来自内部数据集。拒绝采样数据和RL数据来自相同的RM数据集,包括单个、成对和多个响应的偏好,从内部数据和开源数据集构建,包括MATH(Hendrycks等, 2021)、UltraFeedback(Cui等, 2024)、OffsetBias(Park等, 2024)、Skywork-Reward-Preference-80K-v0.2(Liu等, 2024)和HelpSteer2Preference(Wang等, 2025)的训练集。具体来说,我们重新标注了一部分UltraFeedback的数据标签,因为其质量问题;我们在MATH上通过基于规则的真实值匹配采样和过滤轨迹,得到成对偏好数据;对于单个响应评分,我们将正确响应的真实值奖励设为1,错误响应设为0,仅包含可验证的问题。对于拒绝采样,我们使用DeepSeek-v2.5-0906生成带原则和批评的轨迹。采样时间 设为3 。在HelpSteer2的提示采样过程中,我们添加原始数据集中标记的偏好强度作为提示。我们还从RL数据中移除了DeepSeek-V2-Lite-Chat认为过于简单的样本,即根据公式4,三次生成的所有奖励均正确的样本。

DeepSeek-GRM模型和元RM的推导如图5所示。所有DeepSeek-GRM模型都是从LLMs的预训练版本开始训练的。对于元RM的训练,我们重用了RFT阶段的拒绝采样数据,并使用DeepSeek-GRM-27B进行了拒绝采样,,以避免元RM引导投票中的潜在偏差(Chow等, 2025)。元RM训练的学习率为 ,批次大小为512。DeepSeek-GRM-27B的RFT和RL训练时间如表5所示,Gemma-2-27B基模型在Fire-Flyer平台(An等, 2024)上使用128个A100 GPU进行训练。RFT阶段的学习率为 ,RL阶段的学习率为 ,RFT阶段的批次大小为1024,RL阶段的批次大小为512。两个阶段都训练了900步。由于资源限制,大于27B的DeepSeek-GRM模型不进行基于规则的RL,仅使用50 K拒绝采样数据进行训练。

C. 3 基线实现

对于基线方法,我们基于Gemma-2-27B(Team, 2024)重新实现了LLM-as-a-Judge(Zheng等, 2023)、DeepSeek-BTRM-27B(Kendall & Smith, 1940)、CLoud-Gemma-2-27B(Ankner等, 2024)和DeepSeek-PairRM-27B(Jiang等, 2023),并使用与DeepSeek-GRM兼容的所有训练数据和设置。

对于LLM-as-a-Judge,我们使用与DeepSeek-GRM-27B完全相同的训练配置,包括来自DeepSeek-V2.5-0906的拒绝采样数据的RFT和基于规则的在线RL。由于其评分模式,只有成对数据可以在RL阶段使用。对于CLoud-Gemma-2-27B,我们也使用相同的提示模板从DeepSeek-V2.5-0906生成逐点批评。然而,不可能进行拒绝采样,因为在没有训练好的价值头的情况下无法提取奖励。我们使用与DeepSeek-GRM-27B相同的通用指令数据和采样的批评进行微调,从而得到一个批评生成模型。具体来说,我们对另一个带有价值头的Gemma-2-27B模型进行微调以生成奖励,而不是在批评模型上后训练价值头。CLoud-Gemma-2-27B、DeepSeek-

(a)Reward Bench基准测试结果。 (b)所有测试的奖励建模基准测试结果。

图6:不同奖励模型在不同奖励建模基准测试上的推理时间扩展性能。非斜体字体表示基于Gemma-2-27B的模型。

模型Reward BenchPPE PreferencePPE CorrectnessRMBOverall
报告的公共模型结果
Nemotron-4-340B-Reward82.059.360.869.970.5
GPT-4086.767.157.673.871.3
推理时间扩展结果(Voting@1)
LLM-as-a-Judge83.063.457.464.367.0
CLoud-Gemma-2-27B82.067.062.063.268.5
DeepSeek-GRM-27B-RFT(我们的)84.062.259.465.867.8
DeepSeek-GRM-27B(我们的)85.262.459.564.467.9
推理时间扩展结果(Voting@8)
LLM-as-a-Judge83.463.858.265.267.6 (+0.6)
LLM-as-a-Judge w/ TokenProb83.864.658.865.268.1 (+1.1)
CLoud-Gemma-2-27B82.467.362.463.268.8 (+0.3)
DeepSeek-GRM-27B-RFT(我们的)85.364.559.767.769.3 (+1.5)
DeepSeek-GRM-27B(我们的)87.764.960.369.570.6 (+2.7)
DeepSeek-GRM-27B(MetaRM)(我们的)89.866.463.068.872.0 (+4.1)
进一步推理时间扩展结果(Voting@32)
DeepSeek-GRM-27B(我们的)88.565.360.469.771.0 (+3.1)
DeepSeek-GRM-27B(MetaRM)(我们的)90.467.263.270.372.8 (+4.9)

表6:不同方法和模型在RM基准测试中的推理时间可扩展性实验(表3)的详细结果。下划线数字表示最佳性能,粗体数字表示基线和我们方法中的最佳性能,斜体字体表示标量或半标量RMs。对于元RM引导投票(MetaRM),。括号中的数字是推理时间扩展后的性能变化。

DeepSeek-BTRM-27B、CLoud-Gemma-2-27B 和 DeepSeek-PairRM-27B(Jiang 等, 2023)使用与 DeepSeek-GRM-27B 的 RL 阶段相同的单响应评分数据集,但不包括单个响应评分数据。

D 实验细节

D. 1 超参数

对于 DeepSeek-GRM-27B、DeepSeek-GRM-16B、LLM-as-a-Judge 和 CLoud-Gemma-2-27B 的推理时间扩展结果,每个模型的温度设置为 0.5。对于其他实验,所有模型的温度设置为 0。在没有具体描述的情况下,默认情况下 DeepSeek-GRM-27B 在元 RM 引导投票中 。请注意,我们在 DeepSeek-R1 推理时将温度设置为 0.6。请记住,我们让 DeepSeek-GRM 在 ReaLMistake 基准测试中对单个响应进行评分时输出相同范围的奖励,与其他基准测试一致。 | 模型 | Reward Bench | PPE Preference | PPE Correctness | RMB | Overall | | :–: | :–: | :–: | :–: | :–: | :–: | | | 贪婪解码结果 | | | | | | DeepSeek-GRM-27B | 86.0 | 64.7 | 59.8 | 69.0 | 69.9 | | 不含原则生成 | 82.0 | 62.8 | 58.2 | 67.1 | 67.5 | | 不含拒绝采样 | 84.0 | 63.2 | 59.4 | 68.0 | 68.7 | | DeepSeek-GRM-27B-RFT | 84.5 | 64.1 | 59.6 | 67.0 | 68.8 | | 不含提示采样 ($) | 83.0 | 63.8 | 58.2 | 65.8 | 68.0 | | 不含非提示采样 ($) | 82.5 | 63.4 | 58.6 | 65.2 | 67.4 | | 不含拒绝采样 ($/(&/$ | 81.5 | 61.8 | 57.8 | 63.1 | 66.1 | | 不含通用指令数据 | 79.1 | 59.2 | 51.5 | 63.2 | 63.3 | | | 推理时间扩展结果 (Voting@8) | | | | | | DeepSeek-GRM-27B | 87.7 | 64.9 | 60.3 | 69.5 | 70.6 | | 不含原则生成 | 83.0 | 63.2 | 58.6 | 67.1 | 68.0 | | | 推理时间扩展结果 (Voting@32) | | | | | | DeepSeek-GRM-27B | 88.5 | 65.3 | 60.4 | 69.7 | 71.0 | | DeepSeek-GRM-27B ( ) | 88.5 | 67.1 | 65.2 | 65.2 | 71.5 | | DeepSeek-GRM-27B ( ) | 89.7 | 67.2 | 64.7 | 69.1 | 72.7 | | DeepSeek-GRM-27B ( ) | 90.4 | 67.2 | 63.2 | 70.3 | 72.8 |

表7:不同方法和模型在RM基准测试中的推理时间可扩展性实验(表4)的详细结果。粗体数字表示最佳性能。

方法ChatChat HardSafetyReasoningPrior SetsReward Bench
其他模型的结果
DeepSeek-R197.173.773.395.6-84.9
DeepSeek-GRM-16B90.874.384.781.862.582.9
DeepSeek-GRM-230B96.572.587.884.3-85.3
DeepSeek-GRM-671B95.882.988.386.6-88.4
贪婪解码结果
LLM-as-a-Judge96.769.383.584.3-83.4
DeepSeek-BTRM-27B96.786.275.789.868.581.7
CLoud-Gemma-2-27B96.769.383.584.3-82.0
DeepSeek-PairRM-27B95.586.852.392.067.687.1
DeepSeek-GRM-27B-RFT(我们的)94.777.287.079.265.984.5
DeepSeek-GRM-27B(我们的)94.178.388.083.866.786.0
推理时间扩展结果(Voting@8)
LLM-as-a-Judge95.070.083.585.0-83.4
LLM-as-a-Judge w/ TokenProb95.871.383.384.8-83.8
CLoud-Gemma-2-27B96.785.856.291.0-82.4
DeepSeek-GRM-27B-RFT(我们的)94.779.087.380.2-85.3
DeepSeek-GRM-27B(我们的)95.380.989.385.466.887.7
DeepSeek-GRM-27B(MetaRM)(我们的)95.585.788.589.569.489.8
进一步推理时间扩展结果(Voting@32)
DeepSeek-GRM-27B(我们的)95.581.890.086.968.188.5
DeepSeek-GRM-27B(MetaRM)(我们的)95.385.789.591.069.490.4

表8:不同方法在Reward Bench基准测试上的详细结果。下划线数字表示最佳性能,粗体数字表示基线和我们方法中的最佳性能,斜体字体表示标量或半标量RMs。对于元RM引导投票(MetaRM),。

D. 2 基准测试

我们在各种领域的不同RM基准测试上评估了不同方法的性能:(1) Reward Bench(Lambert等, 2024),一个常见的RM评估基准,具有半自动收集的聊天、推理和安全性偏好数据,其中每个查询需要对两个响应进行排名;(2) PPE(Frick等, 2025),一个大规模基准,包含众包偏好数据和可验证任务的正确性数据,每个查询有两个响应;(3) RMB(Zhou等, 2025),一个更全面的基准,具有各种类型的偏好数据,专注于有用性和无害性,每个查询在配对和最佳-of-N(BoN)子集中分别有多个响应或更多响应;(4) ReaLMistake(Kamoi等, 2024),用于诊断单个响应错误的基准。特别地,我们在整体得分计算中未包括Reward Bench基准中的先验集。 | 方法 | MMLU-Pro | MATH | GPQA | MBPP-Plus | IFEval | PPE 正确性 | | :–: | :–: | :–: | :–: | :–: | :–: | :–: | | 结果 | 其他模型的结果 | | | | | | | DeepSeek-R1 | 97.1 | 73.7 | 73.3 | 95.6 | - | 84.9 | | DeepSeek-GRM-16B | 90.8 | 74.3 | 84.7 | 81.8 | 62.5 | 82.9 | | DeepSeek-GRM-230B | 96.5 | 72.5 | 87.8 | 84.3 | - | 85.3 | | DeepSeek-GRM-671B | 95.8 | 82.9 | 88.3 | 86.6 | - | 88.4 | | 贪婪解码结果 | | | | | | | LLM-as-a-Judge | 96.7 | 69.3 | 83.5 | 84.3 | - | 83.4 | | DeepSeek-BTRM-27B | 96.7 | 86.2 | 75.7 | 89.8 | 68.5 | 81.7 | | CLoud-Gemma-2-27B | 96.7 | 69.3 | 83.5 | 84.3 | - | 82.0 | | DeepSeek-PairRM-27B | 95.5 | 86.8 | 52.3 | 92.0 | 67.6 | 87.1 | | DeepSeek-GRM-27B-RFT(我们的) | 94.7 | 77.2 | 87.0 | 79.2 | 65.9 | 84.5 | | DeepSeek-GRM-27B(我们的) | 94.1 | 78.3 | 88.0 | 83.8 | 66.7 | 86.0 | | 推理时间扩展结果(Voting@8) | | | | | | | LLM-as-a-Judge | 95.0 | 70.0 | 83.5 | 85.0 | - | 83.4 | | LLM-as-a-Judge w/ TokenProb | 95.8 | 71.3 | 83.3 | 84.8 | - | 83.8 | | CLoud-Gemma-2-27B | 96.7 | 85.8 | 56.2 | 91.0 | - | 82.4 | | DeepSeek-GRM-27B-RFT(我们的) | 94.7 | 79.0 | 87.3 | 80.2 | - | 85.3 | | DeepSeek-GRM-27B(我们的) | 95.3 | 80.9 | 89.3 | 85.4 | 66.8 | 87.7 | | DeepSeek-GRM-27B(MetaRM)(我们的) | 95.5 | 85.7 | 88.5 | 89.5 | 69.4 | 89.8 | | 进一步推理时间扩展结果(Voting@32) | | | | | | | DeepSeek-GRM-27B(我们的) | 95.5 | 81.8 | 90.0 | 86.9 | 68.1 | 88.5 | | DeepSeek-GRM-27B(MetaRM)(我们的) | 95.3 | 85.7 | 89.5 | 91.0 | 69.4 | 90.4 |

表9:不同方法在PPE Correctness基准上的详细结果。

方法Helpfulness BoNHelpfulness PairwiseHarmlessness BoNHarmlessness PairwiseRMB
结果贪婪解码
LLM-as-a-Judge55.878.550.873.964.8
DeepSeek-BTRM-27B64.083.033.631.057.9
CLoud-Gemma-2-27B64.781.141.766.163.4
DeepSeek-PairRM-27B59.983.334.155.558.2
DeepSeek-GRM-27B-RFT(我们的)58.479.354.276.067.0
DeepSeek-GRM-27B(我们的)62.380.557.076.169.0
结果推理时间扩展(Voting@8)
LLM-as-a-Judge56.078.552.573.865.2
LLM-as-a-Judge w/ TokenProb56.078.552.573.865.2
CLoud-Gemma-2-27B63.882.140.966.163.2
DeepSeek-GRM-27B-RFT(我们的)59.280.154.876.567.7
DeepSeek-GRM-27B(我们的)63.979.557.677.169.5
DeepSeek-GRM-27B(MetaRM)(我们的)63.480.556.874.668.8
结果进一步推理时间扩展(Voting@32)
DeepSeek-GRM-27B(我们的)63.979.858.077.069.7
DeepSeek-GRM-27B(MetaRM)(我们的)64.281.658.077.470.3

表10:不同方法在RMB基准上的详细结果。下划线数字表示最佳性能,粗体数字表示基线和我们方法中的最佳性能,斜体字体表示标量或半标量RMs。对于元RM引导投票(MetaRM),。

我们使用每个基准的标准评估指标:Reward Bench、PPE和RMB中从一组响应中挑选最佳响应的准确性,以及ReaLMistake的ROC-AUC。RMB基准的BoN子集包含每个查询的多个响应,并且只有当最佳响应被正确识别时,该数据点才正确。默认设置是在RMB BoN子集上逐对评估对,每对包括最佳响应和其他不同的响应,如果有总共个响应。对于基线方法,我们采用这种方法进行评估。而对于我们的模型(DeepSeek-GRM),我们直接将所有响应输入模型,并根据确定最佳响应,其中是-th响应的预测奖励,这是一种更直接但更难的方式,几乎不影响性能。请参阅附录E.1.1以获取实证分析。 对于DeepSeek-R1,由于推理成本和延迟较大,我们从Reward Bench基准中均匀降采样300个数据点,并在该子集上测试DeepSeek-R1。结果如图4(b)所示。

D. 3 详细结果

我们在图6中提供了图1的详细结果,参考了更多公共模型的结果。我们在表6中提供了表3的详细结果,并在表7中提供了表4的详细结果,其中包括各RM基准的分数。此外,我们列出了所有测试方法在每个RM基准上的详细结果,Reward Bench基准在表8中,PPE Correctness基准在表9中,RMB基准在表10中。我们 | 方法 | MMLU-Pro | MATH | GPQA | MBPP-Plus | IFEval | PPE 正确性 | | :–: | :–: | :–: | :–: | :–: | :–: | :–: | | 贪婪解码结果 | | | | | | | | LLM-as-a-Judge | 66.0 | 68.0 | 52.8 | 50.2 | 56.8 | 58.8 | | DeepSeek-BTRM-27B | 68.8 | 73.2 | 56.8 | 68.8 | 66.0 | 66.7 | | CLoud-Gemma-2-27B | 68.7 | 68.8 | 53.5 | 59.0 | 62.0 | 62.4 | | DeepSeek-PairRM-27B | 68.3 | 74.7 | 55.0 | 63.1 | 62.9 | 64.8 | | DeepSeek-GRM-27B-RFT(我们的) | 64.8 | 68.7 | 55.5 | 49.0 | 60.2 | 59.6 | | DeepSeek-GRM-27B(我们的) | 64.8 | 68.8 | 55.6 | 50.1 | 59.8 | 59.8 | | 使用参考 | 98.2 | 97.5 | 99.8 | 86.6 | 75.9 | 91.6 | | 推理时间扩展结果(Voting@8) | | | | | | | | LLM-as-a-Judge | 66.2 | 66.4 | 51.9 | 49.9 | 56.8 | 58.2 | | LLM-as-a-Judge w/ TokenProb | 66.4 | 68.1 | 53.0 | 49.5 | 57.0 | 58.8 | | CLoud-Gemma-2-27B | 68.7 | 68.9 | 53.5 | 59.0 | 62.0 | 62.4 | | DeepSeek-GRM-27B-RFT(我们的) | 64.8 | 68.7 | 55.5 | 49.5 | 60.2 | 59.7 | | DeepSeek-GRM-27B(我们的) | 65.7 | 68.7 | 55.5 | 50.0 | 61.6 | 60.3 | | DeepSeek-GRM-27B(MetaRM)(我们的) | 68.0 | 68.7 | 57.3 | 51.3 | 69.9 | 63.0 | | 进一步推理时间扩展结果(Voting@32) | | | | | | | | DeepSeek-GRM-27B(我们的) | 65.5 | 69.4 | 56.0 | 49.9 | 61.0 | 60.4 | | DeepSeek-GRM-27B(MetaRM)(我们的) | 68.1 | 70.0 | 56.9 | 50.8 | 70.4 | 63.2 |

表11:不同方法在PPE Correctness基准上的详细结果。

方法Helpfulness BoNHelpfulness PairwiseHarmlessness BoNHarmlessness PairwiseRMB
贪婪解码结果
LLM-as-a-Judge55.878.550.873.964.8
DeepSeek-BTRM-27B64.083.033.631.057.9
CLoud-Gemma-2-27B64.781.141.766.163.4
DeepSeek-PairRM-27B59.983.334.155.558.2
DeepSeek-GRM-27B-RFT(我们的)58.479.354.276.067.0
DeepSeek-GRM-27B(我们的)62.380.557.076.169.0
推理时间扩展结果(Voting@8)
LLM-as-a-Judge56.078.552.573.865.2
LLM-as-a-Judge w/ TokenProb56.078.552.573.865.2
CLoud-Gemma-2-27B63.882.140.966.163.2
DeepSeek-GRM-27B-RFT(我们的)59.280.154.876.567.7
DeepSeek-GRM-27B(我们的)63.979.557.677.169.5
DeepSeek-GRM-27B(MetaRM)(我们的)63.480.556.874.668.8
进一步推理时间扩展结果(Voting@32)
DeepSeek-GRM-27B(我们的)63.979.858.077.069.7
DeepSeek-GRM-27B(MetaRM)(我们的)64.281.658.077.470.3

表12:不同方法在RMB基准上的详细结果。下划线数字表示最佳性能,粗体数字表示基线和我们方法中的最佳性能,斜体字体表示标量或半标量RMs。对于元RM引导投票(MetaRM),。

我们使用每个基准的标准评估指标:Reward Bench、PPE和RMB中从一组响应中挑选最佳响应的准确性,以及ReaLMistake的ROC-AUC。RMB基准的BoN子集包含每个查询的多个响应,并且只有当最佳响应被正确识别时,该数据点才正确。默认设置是在RMB BoN子集中逐对评估对,每对包括最佳响应和其他不同的响应,如果有总共个响应。对于基线方法,我们采用这种方法进行评估。而对于我们的模型(DeepSeek-GRM),我们直接将所有响应输入模型,并根据确定最佳响应,其中是第个响应的预测奖励,这是一个更直接但更难的方法,几乎不影响性能。请参阅附录E.1.1以获取实证分析。 对于DeepSeek-R1,由于推理成本和延迟较大,我们从Reward Bench基准中均匀降采样300个数据点,并在该子集上测试DeepSeek-R1。结果如图4(b)所示。

D. 3 详细结果

我们在图6中提供了图1的详细结果,参考了更多公共模型的结果。我们在表6中提供了表3的详细结果,并在表7中提供了表4的详细结果,其中包括各RM基准的分数。此外,我们列出了所有测试方法在每个RM基准上的详细结果,Reward Bench基准在表8中,PPE Correctness基准在表9中,RMB基准在表10中。我们 | 方法 | Helpfulness | Harmlessness | 模型 | Overall | | :–: | :–: | :–: | :–: | :–: | | DeepSeek-GRM-27B | | | DeepSeek-V2.5-0905 | 69.4 | | 含成对输入 | 62.1 | 57.5 | GPT-4o-2024-08-06 | 74.3 | | 含列表输入 | 62.3 | 57.0 | DeepSeek-V2-Lite-Chat | 61.9 | | | 0.2 | 0.5 | DeepSeek-GRM-16B(我们的) | 64.9 | | 表11:在RMB BoN基准上不同响应输入类型实验。 | | | Gemma-2-27B-it | 65.8 | | | | | DeepSeek-BTRM-27B | 69.3 | | 方法 | | | DeepSeek-GRM-27B(我们的) | 72.2 | | DeepSeek-GRM-27B | | | DeepSeek-GRM-27B(Voting@8)(我们的) | 74.4 | | 含Voting@32 | | | | | | 含元RM | | 64.7 | 表13:实验结果(ROC-AUC | | | 含参考 | | 91.6 | (%)在ReaLMistake基准上。 | |

表12:基于参考的RM在PPE正确性基准上的实验。

我们发现DeepSeek-R1在Reward Bench基准的推理子集中取得了最高结果,这表明长期推理可以在推理广泛的场景中提升GRMs的性能。

E 更多实验

E. 1 逐点GRM方法的输入灵活性

在第2.1节中,我们理论上展示了逐点GRM方法的输入灵活性。在本节中,我们提供实证证据支持它,涉及各种输入类型。

E.1.1 为多个响应生成奖励

在表11中,我们展示了DeepSeek-GRM-27B在RMB基准的BoN子集上的实验结果,其中每个查询有多个响应。如果一个查询总共有个响应,则成对输入设置是评估由最佳响应和其他响应组成的对,并且只有当最佳响应从所有对中正确识别出来时,该数据点才被视为正确。这也是原始基准的默认设置。我们将DeepSeek-GRM-27B的成对输入和列表输入性能进行比较,其中列表输入设置是通过输入所有个响应来识别最佳响应。结果显示DeepSeek-GRM-27B几乎不受输入类型的影响,在帮助性和无害性子集上的性能差异小于。这表明逐点GRM可以灵活地输入许多响应,并且性能对输入类型不敏感。

E.1.2 为单个响应生成奖励

在表13中,我们展示了DeepSeek-GRM在ReaLMistake基准上16B和27B的表现,其中每个查询只有一个响应。我们与公共模型进行了比较,例如DeepSeek-V2.5-0905、GPT-4o-2024-08-06、DeepSeek-V2-Lite、Gemma-2-27B-it和DeepSeek-BTRM-27B。结果显示DeepSeek-GRM在相同规模的模型中表现最佳,并且通过推理时间扩展与最佳公共模型的表现相当。这表明逐点GRM可以有效评估单个响应。

E.1.3 使用参考生成奖励

在第5.2节中,我们展示了标量和半标量RMs可能存在显著的领域偏差,并且通常在可验证问题上表现更好。为缓解这一问题,我们 测试DeepSeek-GRM-27B是否能够为这些任务提供参考生成奖励,其中参考是每个查询的真实值。结果如表12所示。我们发现,当提供参考时,DeepSeek-GRM-27B可以实现超过的准确率。这表明逐点GRM可以有效地根据参考判断响应,从而缓解在可验证任务上的表现。

E. 2 生成原则的可转移性

我们在第2.2节的基础上扩展了初步实验,使用DeepSeek-GRM-27B生成的原则。我们测试了GPT-40-2024-08-06和DeepSeek-GRM-27B,它们使用与表1完全相同的原则,以及上述DeepSeek-GRM-27B生成的原则。结果如表14所示。我们发现DeepSeek-GRM-27B生成的原则可以转移到其他模型,并且甚至比GPT-4o手动过滤的原则稍好。这表明DeepSeek-GRM-27B生成的原则稳健且可转移到其他模型。

方法 | Chat Hard | IFEval |

:– | :–: | :–: |
GPT-40-2024-08-06 | 76.1 | 56.0 |
+Self-Gen. Pri——

nciples | 75.9 | 55.6 | | +Filtered Principles | 77.8 | 57.5 | | +DGRM-27B-Gen. Principles | 78.1 | 58.3
| DeepSeek-GRM-27B | 78.3 | 59.8 |

表14:不同模型生成原则的可 ——转移性实验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值