从过程到结果:Process Reward Model(PRM)的原理与局限性
在大模型(LLM)推理领域,如何让模型生成高质量、中间步骤合理的链式推理(Chain-of-Thought, CoT)一直是热门话题。为了更好地控制并提升模型的推理过程,一些研究者提出了Process Reward Model(PRM)——它尝试不仅仅在最终答案上为模型打分,还在推理过程中逐步地给予激励或惩罚,期望引导模型走向更稳定、更可解释的推理路径。然而,PRM 在实际大规模强化学习(RL)中的表现却不尽如人意。本文将介绍 PRM 的基本概念,并结合《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(2501.12948v1DeepSeek-R1)》论文(下称“DeepSeek-R1 论文”)中对 PRM 的分析,探讨它在大规模推理强化学习场景下所面临的主要挑战与局限性。
一、Process Reward Model(PRM)是什么?
在经典的Outcome Supervision中,大模型的奖励往往只与“最终答案”是否正确或高质量有关。换句话说,只有当模型给出了正确答案或符合人类偏好的回答时,才会获得一个整体的正向激励。但在实际推理过程中,许多中间步骤(例如列式、思考路径、推断细节)都可能决定最后的结论是否正确、是否可解释。
Process Reward Model(PRM)提出了一种思路:
- 对过程进行拆解: 将推理过程视为若干离散的中间步骤或子结论,通过算法或标注将推理过程“分块”。
- 为每一步打分: 用单独的“过程奖励模型”来判断某个中间步骤是否合理、正确或具有价值,并返回奖励分数。
- 奖励的累积: 在强化学习优化中,将所有中间步骤的奖励累积起来,最终得到对整个推理的“过程评估”。这样,模型不仅关注最终答案好不好,也会努力让中间步骤更符合奖励模型的标准。
PRM 的直觉非常吸引人:如果能管控和激励模型的推理过程,就有可能让模型产生更加可解释的、逐步严谨的推理过程,从而显著提升最终答案的可靠性。
二、PRM 的应用场景
- 数学推理: 在数学题的解题过程中,模型往往需要写出复杂的中间演算。对于每一步是否正确、是否与前后文一致,都可以用过程奖励来控制;
- 代码生成: 类似地,代码往往需要逐行编写并检查逻辑可行性。如果每行都能得到奖励反馈,或许能提高代码的整体正确率;
- 工具调用: 对模型使用外部 API / 工具的中间过程进行打分,避免它在每一步调用工具时出错或浪费资源。
在小规模的实验中,PRM 展现出了一定潜力。例如,它可以帮助模型忽略那些明显是错误或无意义的中间步骤,或者在某些情况下更贴近人类对“好思路”的主观判断。
三、DeepSeek-R1 论文中的观点
在《DeepSeek-R1》这篇论文中,研究者试图探索通过大规模强化学习来让语言模型掌握复杂的推理技能。该团队主要使用了“Group Relative Policy Optimization (GRPO)”等方法,大幅提升了模型在数学、代码、科学推理等任务上的性能,并最终推出了 DeepSeek-R1 这样一个对标 OpenAI-o1 系列的强大模型。
他们也曾考虑或尝试了Process Reward Model(PRM),但最终发现其在大规模强化学习背景下面临严重的不足,简要归纳如下【2501.12948v1DeepSeek-R1, 第 4.2 节】:
1. 难以定义和标注“正确的每一步”
- 不同推理任务对于“正确步骤”的定义不尽相同。数学题中,可以把每一步演算当作一个“过程”;但在一些开放性任务(如写作、问答)里,中间步骤形态多变,很难划分出稳定的阶段或子结论。
- 即使在数学或代码生成场景中,究竟如何标注或自动判断每一步是否正确也极具挑战。依赖规则写死容易漏判或过判,依赖模型自检又可能产生新错误。
2. 中间评估的可靠性不足
- 对最终答案的对错判断往往比较容易(可以用测试用例或答案表判断);但对中间步骤是否正确,需要额外的模型来分析,这个过程本身会引入不确定性。
- 当 PRM 自身是个模型,就有“奖励作弊(Reward Hacking)”的风险:推理模型只要学会讨好这个过程奖励模型,即可拿到高分,而不是真正提升解决任务的能力。
3. 训练成本高,流程复杂
- 训练一个高质量的过程奖励模型,需要收集大量带过程标注的数据或对每个中间步骤进行自动判断,这在大规模场景下几乎无法落地。
- 在强化学习回合中,每次生成的中间步骤越多,需要评估的次数也越多,带来巨大计算负担,而且容错率很低。
4. 大规模场景下收益不如预期
- 该团队在小规模试验中发现 PRM 可能在 rerank、指导搜索等特定场景有用,但扩展到类似 DeepSeek-R1 的大规模 RL 时,PRM 带来的收益往往不及投入的成本。
- 相比之下,他们直接使用规则化的“结果判定”+ 同步或异步的奖励机制,或使用较简单的“outcome reward”与“format reward”来控制中间链式推理生成,反而取得了更大收益。
四、总结与展望
Process Reward Model(PRM)提供了一种“过程激励”思路,希望模型能够在每一步“走对棋、下对子”。在某些有限场景和小规模实验中,PRM 确有独到的直觉价值。然而,针对大规模语言模型的大规模强化学习场景,DeepSeek-R1 论文团队的研究显示,PRM 面临着:
- 难以统一定义过程奖励,缺乏高质量的过程标注;
- 模型会“投机取巧”,只学会了欺骗 PRM 而非真正提升推理能力;
- 额外的计算和标注成本过大,带来复杂度的同时收益不明显。
因此,DeepSeek-R1 团队最终并未在他们的主流程中广泛应用 PRM,而是转向了针对最终答案/格式等更易度量的奖励设计(如规则化验证、答案正确与否、语言一致性等),加上大规模 GRPO 强化学习算法,从而成功打造了推理性能逼近 OpenAI-o1 系列的深度语言模型。
对于研究者和开发者而言,PRM 值得在中小规模项目或特定任务(例如对某些中间子步骤有明确定义的代码调试、公式推导等)进行探索。但在广泛、复杂、多样化的 LLM 场景中,要谨慎评估 PRM 的收益与成本,以免陷入“过程奖励”带来的高昂代价与潜在的“奖励作弊”风险。
后记
2025年2月24日14点06分于上海,在GPT o1大模型辅助下完成。