过程级奖励模型遭遇“信任危机”？PRMBench精细化基准揭示LLM强大推理幕后功臣的潜在缺陷...-CSDN博客

©PaperWeekly 原创 · 作者 | 宋明阳

单位 | 复旦大学博士生

研究方向 | VLM/LLM Reasoning

最近，模型在长序列下的推理能力得到了大幅加强，出现了诸如 o1，Gemini-thinking 等强力多步推理模型。在这个过程中，过程级奖励模型（PRMs）是驱动大语言模型（LLMs）进行复杂推理和决策的关键“幕后功臣”。

然而，它们真的足够可靠吗？一项最新研究表明，现有 PRMs 在识别推理过程中的细微错误方面存在显著不足，甚至不如随机猜测！

论文标题：

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

论文链接：

https://arxiv.org/abs/2501.03124

项目主页：

https://prmbench.github.io/

代码仓库：

https://github.com/ssmisya/PRMBench

数据集链接：

https://huggingface.co/datasets/hitsmy/PRMBench_Preview

作者单位：

复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学

近年来，大型语言模型（LLMs）在数学、代码生成等复杂推理任务中表现出惊人的能力，这很大程度上归功于过程级奖励模型（PRMs）的加持。PRMs 负责评估推理过程中的每一步是否正确和有效，从而引导 LLMs 的学习方向。然而，一个关键的问题是：我们如何准确评估 PRMs 本身的性能？

目前的主流评估方法往往侧重于最终结果的正确性，而忽略了对推理过程中细致入微的错误类型的识别。例如，一个推理步骤可能存在冗余、部分正确、甚至完全错误等多种状态，简单的“正确/错误”标签难以捕捉其复杂性。

为了解决这一问题，复旦大学，苏州大学，上海人工智能实验室，石溪大学，香港中文大学等联合提出了 PRMBench，一个专门为评估 PRMs 的精细化且极具挑战性的基准。这项研究深入剖析了现有 PRMs 的“软肋”，为未来研究指明了方向。

▲ 图1. PRMBench 的主要结构，图的左侧部分展示了数据整理的流程；右侧部分展示了评估主题的示例以及测试模型的相对性能表现

海量且精细的标注数据：PRMBench 包含 6,216 个精心设计的问题，并包含 83,456 个步骤级别的标签，确保评估的深度和广度。
多维度、多层次的评估体系：PRMBench 从简洁性（Simplicity）、合理性（Soundness）和敏感性（Sensitivity）三个主要维度出发，
进一步细分为九个子类别，例如非冗余性、非循环逻辑、评价合理性、步骤一致性、领域一致性、置信度不变性、前提条件敏感性、
欺骗抵抗和一题多解一致性，力求全面覆盖 PRM 可能遇到的挑战。
揭示现有 PRMs 的“盲区”：研究团队对 15 个代表性模型进行了广泛的实验，包括开源 PRMs 以及将强力通用语言模型提示作为 Critic Model 的模型。实验结果令人惊讶，也引人深思。

本文的主要发现有

整体表现堪忧：即使是表现最佳的模型 Gemini-2-Thinking，其 PRMScore 也仅为 68.8，勉强高于随机猜测的 50.0。这表明，即使是最先进的 PRMs，在多步过程评估中仍然有巨大的提升空间。
开源 PRMs 表现更弱：开源 PRMs 的平均 PRMScore 更低至 50.1，部分模型甚至不如随机猜测，揭示了其可靠性和潜在训练偏差的问题。
“简洁性”成最大挑战：在 “简洁性” 维度上，即使是表现相对较好的 ReasonEval-34B，其 PRMScore 也骤降至 51.5，表明 PRMs 在识别推理过程中的冗余步骤方面能力不足。
“阳性偏好”现象显著：部分模型，例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B，在评估中表现出显著的“阳性偏好”，难以区分正确和错误的步骤。
数据驱动的洞察：研究发现，错误步骤出现的位置也会影响 PRMs 的判断准确率。总的来说，随着错误步骤位置的后移，PRMs 的表现会逐渐提升。

这一发现引出了一个关键问题：当前的 PRM 是否具备检测推理过程中细粒度错误的能力？

▲ 图2. 当询问模型一道拉格朗日中值定理相关问题时，o1 和 PRM 可能会产生的错误

然而现有针对 PRM 评测而设计的 benchmark 大多仅仅关注步骤评判的对错，而忽视步骤评判的错误类型，缺乏对错误类型的细致分类。这也就意味着目前缺少这样能够评测 PRM 在细粒度错误上表现的综合 benchmark。

而这，正是我们推出 PRMBench 这一精细化基准的根本原因。我们希望通过 PRMBench，打破现有评估的局限，真正遴选出能够有效识别细粒度错误的“优秀” PRM。

▲ 表1. PRMBench 与其他 Benchmak 对比

PRMBench 构建

▲ 图3. PRMBench 包含三大评测主题：简洁性，合理性和敏感性

数据来源：基于 PRM800K 构建，首先筛选出其完全正确的问题、答案以及解题步骤作为我们的元数据。

错误引入：针对多数评测主题（前8个）使用 LLMs（特别是 GPT-4o）将各种细粒度的错误引入到完全正确的解题推理步骤中。对于一题多解的情况则使用多步推理增强过的语言模型为同一问题生成不同的正确解法及其推理步骤。

人工验证：严格的人工审查，以确保引入错误的质量和相关性。

数据集统计：包含 6,216 个精心设计的问题，带有 83,456 个步骤级别的标签。

评估对象：分为三个主要领域

评估指标：

主要发现：

PRMs 表现不佳：总的来说，PRMs 在多步过程评估中表现出有限的能力，其得分通常仅略高于随机猜测。
开源模型落后：开源 PRM 的表现通常不如将强力通用语言模型（如o1, Gemini-thinking 等）提示为 Critic Model 的表现更好。
简洁性或成最大挑战：相较于其他评测主题，检测冗余（简洁性）被证明对 PRMs 来说尤其困难。