摘要
近年来,大语言模型在执行复杂的多步骤推理的能力方面已大大提高。然而,即使是最先进的模型仍然经常产生逻辑错误。为了训练更可靠的模型,我们可以采用结果监督(为最终结果提供反馈)或过程监督(为每个中间推理步骤提供反馈)。鉴于训练可靠模型的重要性以及人工反馈的高成本,仔细比较这两种方法非常重要。最近的工作已经开始了这种比较,但仍有许多问题存在。我们进行了自己的调查,发现在训练模型解决具有挑战性的 MATH 数据集中的问题时,过程监督的表现明显优于结果监督。我们的过程监督模型解决了 MATH 测试集代表性子集中 78% 的问题。此外,我们表明主动学习显著提高了过程监督的有效性。为了支持相关研究,我们还发布了 PRM800K,这是用于训练我们的最优奖赏模型的具有 800,000 条数据的步骤级人工反馈标签的完整数据集。
1.介绍
大型语言模型能够通过以逐步的思维链形式生成解决方案来解决需要复杂多步骤推理的任务。然而,即使是最先进的模型也容易产生错误——它们倾向于在不确定的时刻编造事实。这些幻觉在需要多步骤推理的领域尤其成问题,因为一个逻辑错误就足以破坏更大的解决方案。检测和减轻幻觉对于提高推理能力至关重要。
一种有效的方法是训练奖赏模型来区分期望输出和不期望输出。然后,奖赏模型可用于强化学习管道或通过拒绝采样进行搜索。虽然这些技术很有用,但最终系统的可靠性需要依赖于奖赏模型本身。因此,研究如何最有效地训练可靠的奖赏模型非常重要。
在最近相关的工作中,Uesato et al. (2022) 描述了两种不同的奖赏模型训练方法:结果监督和过程监督。结果监督奖赏模型 (ORM) 仅使用模型思维链的最终结果进行训练,而过程监督奖赏模型 (PRM) 会接收思维链中每一步的反馈。有令人信服的理由支持过程监督训练方法。它提供更精确的反馈,因为它指定了发生的任何错误的确切位置。它还具有与 AI 对齐相关的几个优势:它更容易被人类解释,并且它更直接地奖励遵循人类认可的思维链的模型。在逻辑推理领域,使用结果监督训练的模型经常使用不正确的推理来得出正确的最终答案。过程监督已被证明可以缓解这种错位行为。
尽管有这些优势,Uesato et al. (2022) 发现,在小学数学领域,结果监督和过程监督的最终成绩相似。我们对结果监督和过程监督进行了详细的比较,主要有三个区别:我们使用了更强大的基础模型,我们使用了更多人工反馈,并且在更具挑战性的 MATH 数据集上进行训练和测试。
我们的主要贡献如下:
- 我们表明,过程监督可以训练出比结果监督更可靠的奖赏模型。我们使用最先进的 PRM 解决了 MATH 测试集代表性子集中 78.2% 的问题。
- 我们表明,大型奖赏模型可以可靠地近似小型奖赏模型的人类监督,并且可以用于有效地进行大规模数据收集消融。
- 我们表明,主动学习可使过程监督的数据效率提高 2.6 倍。
- 我们发布了全过程监督数据集 PRM800K,以促进相关研究。
2.Methods
我们对结果和过程监督进行了比较,方法与 Uesato et al. (2022) 的方法类似。由于 MATH 数据集中的所有问题都有可自动检查的答案,因此无需人工即可提供结果监督。相比之下,没有简单的方法可以自动化过程监督。因此,我们依靠人工数据标注者来提供过程监督,具体方法是标记模型生成的解决方案中每个步骤的正确性。
我们在两种不同的方案中开展实验:大规模和小规模。每种方案都有自己的优势,并且提供了互补的视角。在大规模方案中,我们对 GPT-4 中的所有模型进行了微调。我们专注于通过训练最可靠的 ORM 和 PRM 来推进最先进的技术。不幸的是,这些奖赏模型的训练集无法直接比较,原因我们将在第 3 节中讨论。因此,这些模型并不适合对结果和过程监督进行同类比较。为了解决这个问题,我们还在小规模上训练模型,这样我们就可以进行更直接的比较。为了消除对昂贵的人工反馈的依赖,我们使用大规模模型来监督小规模模型训练。这种设置使我们能够进行几项重要的消融,否则这些消融是不可行的。
2.1 Scope
在每个模型规模上,我们都使用一个固定模型来生成所有解决方案。我们将此模型称为生成器。我们不会尝试使用强化学习 (RL) 来改进生成器。当我们讨论结果和过程监督时,我们特指给予奖赏模型的监督。我们不会讨论如果使用 RL 进行训练,生成器将从奖赏模型获得的任何监督。虽然使用 RL 对生成器进行微调是自然而然的下一步,但它并不是本研究的重点。
相反,我们专注于如何训练最可靠的奖赏模型。我们通过奖赏模型对生成器中均匀采样的解决方案执行 best-of-N 搜索的能力来评估奖赏模型。对于每个测试问题,我们选择奖赏模型排名最高的解决方案,根据其最终答案自动评分,并报告正确的部分。更可靠的奖赏模型将更频繁地选择正确的解决方案。
2.2 Base Models
所有大型模型均基于base GPT-4 模型进行微调。此模型仅经过预训练以预测下一个 token;它未使用任何人类反馈强化学习 (RLHF) 进行预训练。小型基础模型的设计与 GPT-4 类似,但预训练的计算量大约少 200 倍。作为额外的预训练步骤,我们在一个包含大约 15 亿个数学相关 token 的数据集上对所有模型进行微调,我们将其称为 MathMix。与 Lewkowycz et al. (2022) 类似,我们发现这提高了模型的数学推理能力。有关如何构建此数据集的详细信息,请参阅附录 A。
2.3 Generator
为了使解析单个步骤更加容易,我们训练生成器以换行符分隔的分步格式生成解决方案。具体来说,我们通过少量样本生成数学训练问题的解决方案,筛选出那些达到正确最终答案的解决方案,并在一个epoch内微调此数据集上的基础模型。此步骤并非旨在教会生成器新技能;它仅旨在教会生成器以所需的格式生成解决方案。
2.4 Data Collection

为了收集过程监督数据,我们向人类数据标注员提供由大规模生成器采样的针对数学问题的分步解决方案。他们的任务是为解决方案中的每个步骤分配positive、negative或neutral的标签,如图 1 所示。positive标签表示该步骤正确且合理。negative标签表示该步骤不正确或不合理。neutral标签表示存在歧义。在实践中,如果某个步骤具有微妙的误导性,或者它是一个技术上仍然有效的糟糕建议,则该步骤可能会被标记为neutral。我们允许使用neutral标签,因为这使我们能够推迟有关如何处理歧义的决定:在测试时,我们可以将中性标签视为正面或负面。附录 D 中提供了有关标签说明的更详细描述。
我们仅标记从大型生成器生成的解决方案,以最大限度地发挥我们有限的人力数据资源的价值。我们将收集的整个步骤级标签数据集称为 PRM800K。PRM800K 训练集包含 12K 个问题的 75K 个解决方案,其中共有 800K 个步骤级标签。为了最大限度地减少过拟合,我们在 PRM800K 训练集中包含了 4.5K MATH 测试问题的数据,因此我们只在剩余的 500 个数学测试问题上评估我们的模型。有关此测试集的更多详细信息,请参阅附录 C。
在数据收集过程中,我们必须决定向数据标注员展示哪些解决方案。最直接的策略是统一展示生成器生成的解决方案。但是,如果我们展示的解决方案有明显的错误,我们得到的人工反馈就不那么有价值了。我们更愿意展示更有可能欺骗我们最好的奖赏模型的解决方案。为此,我们尝试策略性地选择向数据标注员展示特定解决方案。具体来说,我们选择展示convincing wrong-answer解决方案。我们使用convincing的术语来指代我们当前最佳 PRM 评价很高的解决方案,我们使用wrong-answer来指代得出最终错误答案的解决方案。我们使用这种略显冗长的措辞来强调这样一个事实:正确性仅通过检查最终答案来确定,这一过程有时会导致错误评分的解决方案。我们希望从标记convincing wrong-answer解决方案中获得更多信息,因为我们知道 PRM 在每个这样的解决方案中至少有一个步骤是错误的。
除了使用这种选择策略外,我们还在数据收集过程的几个点使用最新数据迭代地重新训练我们的 PRM。在每次迭代中,我们为每个问题生成 N 个解决方案,并仅向数据标注员显示 top-K 个 convincing wrong-answer 解决方案。我们尝试在问题级别(每个问题 K 个解决方案)或整个数据集(总共 K 个解决方案,在问题之间不均匀分布)应用此前 K 个过滤。由于数据收集过程成本高昂,因此无法对这些决策进行大规模消融。但是,我们在第 4 节中执行了几次替代消融,使用我们最大的 PRM 作为较小 PRM 的标记预言机。有关数据收集的更多详细信息,请参阅附录 B。
2.5 Outcome-supervised Reward Models (ORMs)

我们按照与 Cobbe et al. (2021) 类似的方法训练 ORM。我们从生成器中均匀地为每个问题抽取固定数量的解决方案,并训练 ORM 预测每个解决方案是正确还是不正确。在实践中,我们通常通过自动检查最终答案来确定正确性,但原则上这些标签可以由人类提供。在测试时,我们使用 ORM 对最后一个token的预测作为解决方案的总体分数。我们注意到用于确定 ORM 目标的自动评分并不完全可靠:通过不正确的推理得出正确答案的 false positives 解决方案将被错误评分。我们将在附录 E 中讨论其他 ORM 训练细节。
2.6 Process-supervised Reward Models (PRMs)

我们训练 PRM 以基于每个步骤中的最后一个token 来预测每个步骤的正确性。此预测采用单个token的形式,我们在训练期间最大化这些目标token的对数似然。因此,可以在标准语言模型pipeline中训练 PRM,而无需任何特殊调整。要确定测试时的步骤级预测,只需对整个解决方案执行一次 PRM 前向传递即可。我们在图 2 中可视化了两种不同解决方案的大规模 PRM 分数。要比较多个解决方案,必须为每个解决方案计算一个分数。这是一个重要但直截了当的细节:我们将解决方案的 PRM 分数定义为 PRM 下每个步骤都正确的概率。我们将其实现为每个步骤的正确性概率的乘积。我们在附录 F 中描述了其他可能的评分策略和其他 PRM 训练细节。
当我们提供过程监督时,我们特意选择只监督到第一个错误步骤。这使得结果和过程监督之间的比较更加直接。对于正确的解决方案,两种方法都提供相同的信息,即每一步都是正确的。对于错误的解决方案,两种方法都揭示了至少一个错误的存在,而过程监督还揭示了该错误的确切位置。如果我们在第一个错误之外提供额外的过程监督,那么过程监督将具有更大的信息优势。这一决定还使人类的token成本保持相似:如果不依赖易于检查的最终答案,确定解决方案的正确性就相当于识别其第一个错误。虽然大多数数学问题确实有易于检查的最终答案,但我们预计在更复杂的领域中情况并非如此。

3.Large-scale Supervision

我们使用 PRM800K 中的步骤级标签训练大规模 PRM。为了确保大规模 ORM 基线尽可能强大,我们针对每个问题使用来自生成器的 100 个均匀样本进行训练。这意味着 ORM 训练集与 PRM800K 没有重叠,而且大一个数量级。虽然这两个训练集不能直接比较,但每个训练集都代表了我们通过每种监督形式推进最新技术的最佳尝试。我们注意到,仅使用 PRM800K 解决方案训练 ORM 会有问题,因为我们的主动学习策略严重偏向错误答案解决方案。我们确实尝试过通过混合均匀采样的解决方案在 PRM800K 解决方案的超集上训练 ORM,但我们发现这并没有提高 ORM 的性能。
图 3 显示了每个奖赏模型的 best-of-N 性能如何随 N 的变化而变化。由于多数投票是众所周知的强基线,因此我们也将此方法作为比较点。虽然 ORM 的表现略好于多数投票基线,但 PRM 的表现远远优于两者。PRM 不仅在所有 N 值上都达到更高的性能,而且随着 N 的增加,性能差距也会扩大。这表明在搜索大量模型生成的解决方案时,PRM 比 ORM 和多数投票都更有效。我们尝试使用 RM 加权投票来结合 PRM 和多数投票的优势,但这并没有明显提高性能。我们使用 MATH 测试集的特定子集进行评估,我们在附录 C 中对其进行了描述。我们在附录 G 中进一步按问题难度细分这些结果。
4.Small-scale Synthetic Supervision
我们发现 PRM 在大规模模型上的表现优于 ORM,但仅凭这一结果并不能说明全部情况。为了更好地比较结果和过程监督,必须分离出两个混杂因素。首先,ORM 和 PRM 的训练集不能直接比较:PRM 训练集是使用主动学习构建的,偏向于答案错误的解决方案,并且数量级要小一个数量级。其次,最终答案评分将为尽管推理不正确但仍得出正确最终答案的虚假解决方案提供正面标签。这可能会损害 ORM 的性能,我们可能希望或不希望将这种影响更普遍地归因于结果监督。
由于收集人工反馈的成本很高,我们无法使用人工标注员轻松消除这些因素。我们改为使用大规模 PRM 监督较小的模型来执行相关消除。此设置使我们能够以适中的成本模拟大量数据收集。在本节的其余部分,我们将第 3 节中的大规模 PRM 称为
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge。
4.1 Process vs Outcome Supervision

我们现在直接比较结果和过程监督。我们首先从小型生成器中为每个问题抽取 1 到 200 个解决方案。对于每个数据集,我们提供三种形式的监督:来自
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 的过程监督、来自
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 的结果监督和来自最终答案检查的结果监督。监督的选择是这三个奖赏模型系列之间的唯一区别,它们在其他方面都是在相同的数据集上进行训练的。有关如何使用
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 进行结果和过程监督的更多详细信息,请参阅附录 H。
在图 4a 中,我们通过 best-of-500 选择来评估每个奖赏模型。我们发现,在所有数据收集规模上,过程监督的表现都明显优于两种形式的结果监督。在图 4b 中,我们通过不同 N 值中 best-of-N 表现来评估每个系列中的最佳奖赏模型。我们发现,使用
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 进行结果监督明显比最终答案检查更有效。这可以通过以下事实来解释:
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 为使用不正确的推理得出正确最终答案的解决方案提供了更好的监督。
目前尚不清楚
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 监督或最终答案检查是否代表更合适的结果监督基线。虽然最终答案监督更明确地基于结果,但它的主要弱点——存在false positives——在 MATH 数据集中可能被过分强调。
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 的结果监督更好地代表了不易受假阳性影响的领域的结果监督。我们认为
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 的结果监督是更相关的基线,但我们鼓励读者得出自己的结论。

4.2 Active Learning
最后,我们研究主动学习的影响。我们在每个问题的单个样本上训练一个小规模的奖赏模型
P
R
M
s
e
l
e
c
t
o
r
PRM_{selector}
PRMselector,并使用该模型对每个问题的 1000 个样本进行评分。为了训练我们的每个较大的奖赏模型,我们为每个问题选择 N 个样本,其中 80% 是最令人信服的(根据
P
R
M
s
e
l
e
c
t
o
r
PRM_{selector}
PRMselector)错误答案样本,20% 是剩下的最令人信服的样本(正确或错误答案)。我们使用
P
R
M
l
a
r
g
e
PRM_{large}
PRMlarge 对选定的样本进行评分,并根据这些分数进行训练。此过程可确保所有样本在
P
R
M
s
e
l
e
c
t
o
r
PRM_{selector}
PRMselector 下都相对令人信服,已知大部分样本至少包含一个错误,并且我们的整体数据集不会过于偏向错误答案解决方案。此数据标记方案的性能如图 4a 所示。通过比较有主动学习和没有主动学习时最佳拟合线的斜率,我们估计这种形式的主动学习比统一数据token的数据效率高出约 2.6 倍。我们注意到,在最大的主动学习数据集(每个问题 200 个样本)上训练的模型似乎略低于预期趋势线。我们对这一观察的最佳解释是,200 个样本占整个选择池(1000 个样本)的很大一部分,而这种相对缺乏多样性限制了主动学习可能带来的好处。
我们还对在数据收集过程中迭代重新训练
P
R
M
s
e
l
e
c
t
o
r
PRM_{selector}
PRMselector 的影响进行了初步调查。在迭代之间,我们使用所有当前token的数据重新训练
P
R
M
s
e
l
e
c
t
o
r
PRM_{selector}
PRMselector。不幸的是,我们观察到此过程中存在我们无法诊断的不稳定性。由此产生的奖赏模型表现并不比上述模型更好。我们预计某种形式的迭代重新训练对主动学习有益,但目前我们没有确凿的证据支持这一说法。我们认为这是未来研究的一个引人注目的方向。
5.OOD Generalization

为了获得一些超出分布的泛化能力,我们根据从最近的 AP 物理、AP 微积分、AP 化学、AMC10 和 AMC12 考试中抽取的 224 个 STEM 问题集评估了我们的大规模 ORM 和 PRM。由于这些测试是在预训练数据集编译之后发布的,因此我们可以高度确信模型没有出现这些问题。我们在表 1 中报告了 ORM、PRM 和多数投票的 100 个最佳表现。我们观察到的结果与第 3 节中的结果相似:PRM 的表现优于 ORM 和多数投票。这表明 PRM 可以容忍适度的分布变化,并且其强劲的表现在新的测试问题上仍然有效。
272

被折叠的 条评论
为什么被折叠?



