Process Reward Model（PRM）的原理与局限性:结合DeepSeek-R1论文分析

阿正的梦工坊

于 2025-02-24 14:07:32 发布

阅读量1.3k

点赞数 21

分类专栏： LLM Deep Learning 文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/shizheng_Li/article/details/145827419

版权

Deep Learning 同时被 2 个专栏收录

290 篇文章

订阅专栏

LLM

216 篇文章

订阅专栏

从过程到结果：Process Reward Model（PRM）的原理与局限性

在大模型（LLM）推理领域，如何让模型生成高质量、中间步骤合理的链式推理（Chain-of-Thought, CoT）一直是热门话题。为了更好地控制并提升模型的推理过程，一些研究者提出了Process Reward Model（PRM）——它尝试不仅仅在最终答案上为模型打分，还在推理过程中逐步地给予激励或惩罚，期望引导模型走向更稳定、更可解释的推理路径。然而，PRM 在实际大规模强化学习（RL）中的表现却不尽如人意。本文将介绍 PRM 的基本概念，并结合《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（2501.12948v1DeepSeek-R1）》论文（下称“DeepSeek-R1 论文”）中对 PRM 的分析，探讨它在大规模推理强化学习场景下所面临的主要挑战与局限性。

一、Process Reward Model（PRM）是什么？

在经典的Outcome Supervision中，大模型的奖励往往只与“最终答案”是否正确或高质量有关。换句话说，只有当模型给出了正确答案或符合人类偏好的回答时，才会获得一个整体的正向激励。但在实际推理过程中，许多中间步骤（例如列式、思考路径、推断细节）都可能决定最后的结论是否正确、是否可解释。

Process Reward Model（PRM）提出了一种思路：

对过程进行拆解： 将推理过程视为若干离散的中间步骤或子结论，通过算法或标注将推理过程“分块”。
为每一步打分： 用单独的“过程奖励模型”来判断某个中间步骤是否合理、正确或具有价值，并返回奖励分数。
奖励的累积： 在强化学习优化中，将所有中间步骤的奖励累积起来，最终得到对整个推理的“过程评估”。这样，模型不仅关注最终答案好不好，也会努力让中间步骤更符合奖励模型的标准。

PRM 的直觉非常吸引人：如果能管控和激励模型的推理过程，就有可能让模型产生更加可解释的、逐步严谨的推理过程，从而显著提升最终答案的可靠性。

二、PRM 的应用场景

数学推理： 在数学题的解题过程中，模型往往需要写出复杂的中间演算。对于每一步是否正确、是否与前后文一致，都可以用过程奖励来控制；
代码生成： 类似地，代码往往需要逐行编写并检查逻辑可行性。如果每行都能得到奖励反馈，或许能提高代码的整体正确率；
工具调用： 对模型使用外部 API / 工具的中间过程进行打分，避免它在每一步调用工具时出错或浪费资源。

在小规模的实验中，PRM 展现出了一定潜力。例如，它可以帮助模型忽略那些明显是错误或无意义的中间步骤，或者在某些情况下更贴近人类对“好思路”的主观判断。

三、DeepSeek-R1 论文中的观点

在《DeepSeek-R1》这篇论文中，研究者试图探索通过大规模强化学习来让语言模型掌握复杂的推理技能。该团队主要使用了“Group Relative Policy Optimization (GRPO)”等方法，大幅提升了模型在数学、代码、科学推理等任务上的性能，并最终推出了 DeepSeek-R1 这样一个对标 OpenAI-o1 系列的强大模型。

他们也曾考虑或尝试了Process Reward Model（PRM），但最终发现其在大规模强化学习背景下面临严重的不足，简要归纳如下【2501.12948v1DeepSeek-R1, 第 4.2 节】：

1. 难以定义和标注“正确的每一步”

不同推理任务对于“正确步骤”的定义不尽相同。数学题中，可以把每一步演算当作一个“过程”；但在一些开放性任务（如写作、问答）里，中间步骤形态多变，很难划分出稳定的阶段或子结论。
即使在数学或代码生成场景中，究竟如何标注或自动判断每一步是否正确也极具挑战。依赖规则写死容易漏判或过判，依赖模型自检又可能产生新错误。

2. 中间评估的可靠性不足

对最终答案的对错判断往往比较容易（可以用测试用例或答案表判断）；但对中间步骤是否正确，需要额外的模型来分析，这个过程本身会引入不确定性。
当 PRM 自身是个模型，就有“奖励作弊（Reward Hacking）”的风险：推理模型只要学会讨好这个过程奖励模型，即可拿到高分，而不是真正提升解决任务的能力。

3. 训练成本高，流程复杂

训练一个高质量的过程奖励模型，需要收集大量带过程标注的数据或对每个中间步骤进行自动判断，这在大规模场景下几乎无法落地。
在强化学习回合中，每次生成的中间步骤越多，需要评估的次数也越多，带来巨大计算负担，而且容错率很低。

4. 大规模场景下收益不如预期

该团队在小规模试验中发现 PRM 可能在 rerank、指导搜索等特定场景有用，但扩展到类似 DeepSeek-R1 的大规模 RL 时，PRM 带来的收益往往不及投入的成本。
相比之下，他们直接使用规则化的“结果判定”+ 同步或异步的奖励机制，或使用较简单的“outcome reward”与“format reward”来控制中间链式推理生成，反而取得了更大收益。