OpenAI使用过程监督提升数学推理能力

最新推荐文章于 2025-03-24 11:36:32 发布

小天才学习机打游戏

最新推荐文章于 2025-03-24 11:36:32 发布

阅读量1.4k

点赞数 17

文章标签：人工智能机器学习深度学习语言模型机器人知识图谱学习

本文链接：https://blog.csdn.net/m0_59164520/article/details/142768918

版权

摘要

近年来，大型语言模型在多步推理能力上取得了显著进步，但即使是最先进的模型仍然常犯逻辑错误。为了训练更可靠的模型，我们可以采用结果监督（对最终结果提供反馈）或过程监督（对每个推理步骤提供反馈）。考虑到人类反馈的高成本，比较这两种方法至关重要。虽然已有研究开始探索这一问题，但仍有许多未解之处。我们的研究表明

在解决 MATH 数据集的复杂问题时，过程监督明显优于结果监督。我们的过程监督模型解决了 MATH 测试集代表性子集中的 78% 的问题。
此外，主动学习显著提升了过程监督的效果。

为了支持相关研究，我们还发布了包含 80 万条步骤级人类反馈标签的 PRM800K 数据集，用于训练我们的最佳奖励模型。

1 引言

大型语言模型能够通过逐步的链式思维格式生成解决方案，解决需要复杂多步推理的任务（Nye等，2021；Wei等，2022；Kojima等，2022）。然而，即使是最先进的模型也容易产生虚假信息——它们在不确定的情况下倾向于捏造事实（Bubeck等，2023）。这些幻觉（Maynez等，2020）在需要多步推理的领域尤为严重，因为单个逻辑错误就足以破坏整个解决方案。检测和减轻幻觉现象对提高推理能力至关重要。

一种有效的方法是训练奖励模型，以区分理想和不理想的输出。然后可以将奖励模型用于强化学习管道（Ziegler等，2019；Stiennon等，2020；Nakano等，2021；Ouyang等，2022），或通过拒绝采样进行搜索（Nichols等，2020；Shen等，2021；Cobbe等，2021）。虽然这些技术很有用，但最终系统的可靠性取决于奖励模型本身。因此，研究如何最有效地训练可靠的奖励模型至关重要。

在相关工作中，Uesato等（2022）描述了两种不同的奖励模型训练方法：结果监督和过程监督。结果监督的奖励模型（ORM）仅使用模型链式思维的最终结果进行训练，而过程监督的奖励模型（PRM）则为链式思维中的每一步提供反馈。支持过程监督的理由令人信服。它提供了更精确的反馈，因为它能够指出发生错误的确切位置。它还具有几项与AI对齐相关的优势：它更易于人类理解，并且更直接地奖励模型遵循人类认可的思维链。在逻辑推理领域，使用结果监督训练的模型经常使用错误的推理得出正确的最终答案（Zelikman等，2022；Creswell等，2022）。过程监督已被证明能够减少这种不对齐行为（Uesato等，2022）。

尽管有这些优势，Uesato等（2022）发现，在小学数学领域，结果监督和过程监督的最终表现相似。我们进行了自己的详细比较，主要有三个不同点：我们使用了更强大的基础模型，使用了显著更多的人工反馈，并在更具挑战性的MATH数据集（Hendrycks等，2021）上进行了训练和测试。

1. 我们证明了过程监督能够训练出比结果监督更可靠的奖励模型。我们使用最先进的过程监督奖励模型（PRM）解决了MATH测试集中代表性子集中的78.2%的问题。

2. 我们证明了一个大型奖励模型可以可靠地模拟人类对较小奖励模型的监督，并且可以有效用于大规模数据收集的消融实验。

3. 我们展示了主动学习使过程监督的数据效率提高了2.6倍。

4. 我们发布了完整的过程监督数据集PRM800K，以促进相关研究。

2 方法

我们参考Uesato等人（2022）的类似方法，比较了结果监督和过程监督。由于MATH数据集中的所有问题都有自动可检查的答案，结果监督可以无需人工提供。相反，过程监督没有简单的自动化方法。因此，我们依赖人工数据标注员提供过程监督，具体是通过标注模型生成解答中每个步骤的正确性来进行。

我们在两个不同的模式下进行了实验：大规模和小规模。每种模式都有其优势，并提供互补的视角。

在大规模实验中，我们从GPT-4（OpenAI，2023）进行微调，重点是通过训练最可靠的结果监督奖励模型（ORM）和过程监督奖励模型（PRM）推动最先进技术的发展。不幸的是，由于我们将在第3节中讨论的原因，这些奖励模型的训练集不可直接比较。因此，这些模型并不适合对结果监督和过程监督进行一对一的比较。

为了解决这一问题，我们还在小规模模式下训练了模型，在这里我们可以进行更直接的比较。为了减少对昂贵人工反馈的依赖，我们使用一个大规模模型来监督小规模模型的训练。该设置使我们能够进行几项重要的消融实验，这在其他情况下是不可行的。

2.1 范围

在每个模型规模下，我们使用一个固定的模型生成所有解答，称其为生成器。我们没有尝试通过强化学习（RL）改进生成器。当讨论结果监督和过程监督时，具体指的是给奖励模型提供的监督。我们不讨论生成器如果通过RL与奖励模型联合训练时会收到的任何监督。尽管通过RL微调生成器是一个自然的下一步，但这并非本研究的重点。

我们专注于如何训练最可靠的奖励模型。通过在生成器生成的随机样本解答中执行最佳N次搜索来评估奖励模型。对于每个测试问题，我们选择由奖励模型排名最高的解答，基于其最终答案自动评分，并报告正确的解答比例。一个更可靠的奖励模型会更频繁地选择正确的解答。

2.2 Base模型

所有大规模模型都从基础的GPT-4模型（OpenAI，2023）进行微调。该模型仅通过预测下一个词元进行预训练，未经过任何来自人类反馈的强化学习（RLHF）（Christiano等，2017）。

小规模基础模型在设计上与GPT-4相似，但它们的预训练计算量大约少了200倍。作为额外的预训练步骤，我们对所有模型在一个包含约15亿个与数学相关的词元的数据集上进行微调，称之为MathMix。与Lewkowycz等（2022）的研究相似，我们发现这提高了模型的数学推理能力。关于该数据集的构建细节，请参见附录A。

2.3 生成器

为了便于解析各个步骤，我们训练生成器以换行分隔的逐步格式生成解答。具体来说，我们通过少量示例生成MATH训练问题的解答，筛选出那些能够得出正确最终答案的解答，并在此数据集上对基础模型进行一次微调。此步骤的目的并非是教授生成器新技能，而是仅仅为了教会生成器以所需格式生成解答。

2.4 数据收集

为了收集过程监督数据，我们向数据标注员展示由大规模生成器生成的MATH问题的逐步解答。标注员的任务是对解答中的每个步骤进行标注，标注为正面、负面或中性，如图1所示。

正面标注表示该步骤是正确且合理的，负面标注表示该步骤是不正确或不合理的，而中性标注表示该步骤存在模糊性。在实践中，如果某个步骤有些误导性，或者虽然是一个不佳的建议但在技术上仍然有效，那么该步骤可能会被标注为中性。我们允许使用中性标注，因为这可以将如何处理模糊性的决策延后到测试阶段，在测试时，我们可以将中性标注视为正面或负面。

为了最大化有限人类数据资源的价值，我们仅标注来自大规模生成器的解答。我们将收集到的所有逐步标注数据集称为PRM800K。PRM800K训练集包含12,000个问题的75,000个解答，共计800,000个步骤级标注。为了减少过拟合，我们在PRM800K训练集中包含了4,500个MATH测试问题的数据，因此我们仅在剩余的500个MATH测试问题上评估模型。

在数据收集中，我们需要决定向数据标注员展示哪些解答。最直接的策略是均匀展示生成器生成的解答。然而，如果我们展示那些明显出错的解答，那么得到的人类反馈的价值就会较低。我们更希望展示那些可能会欺骗我们最佳奖励模型的解答。

为此，我们尝试战略性地选择展示给数据标注员的解答，特别是展示那些具有说服力的错误解答。我们使用“具有说服力”一词来指代那些被我们当前最好的PRM高度评价的解答，而“错误解答”指的是最终答案不正确的解答。

我们使用这种稍显冗长的措辞来强调，正确性仅通过检查最终答案来判断，这一过程有时会导致解答被错误评分。我们预计标注具有说服力的错误解答能够提供更多信息，因为我们知道在每个这样的解答中，PRM至少在某一步骤上是错误的。

除了使用这一选择策略外，我们还在数据收集过程中多次迭代重新训练PRM，使用最新的数据。在每次迭代中，我们为每个问题生成N个解答，并只向数据标注员展示前K个最具说服力的错误解答。我们尝试在问题级别应用这一Top-K过滤（每个问题K个解答）或在全局数据集上应用此过滤（总计K个解答，不均匀分布于各个问题）。

由于数据收集过程非常昂贵，我们无法对这些决策进行大规模消融实验。然而，我们在第4节中通过使用我们最大的PRM作为标注小型PRM的标注“oracle”进行了一些替代性消融实验。

2.5 ORMs

我们采用与 Cobbe 等人（2021）相似的方法来训练 ORM。我们从生成器中均匀抽取固定数量的每个问题的解，并训练 ORM 来预测每个解是正确还是错误。在实际操作中，我们通常通过自动检查最终答案来确定正确性，但原则上这些标签也可以由人工提供。在测试时，我们使用 ORM 对最后一个标记的预测作为该解的总体评分。需要注意的是，用于确定 ORM 目标的自动评分并非完全可靠：通过错误推理得出正确答案的错误正解（false positives）会被误判。

2.6 PRMs

我们训练PRMs以预测每个步骤中最后一个标记之后的步骤正确性。该预测形式为单个标记，我们在训练过程中最大化这些目标标记的对数似然率。因此，PRM可以在无需任何特殊调整的标准语言模型管道中进行训练。在测试时，只需对整个解决方案进行一次PRM前向传递，即可确定步骤级别的预测。

图2中展示了两种不同解决方案的大规模PRM得分可视化。为了比较多个解决方案，我们需要为每个解决方案计算一个单一得分。这是一个重要但直接的细节：我们定义解决方案的PRM得分为在PRM下每个步骤都正确的概率，并将其实现为每个步骤正确性概率的乘积。

在提供过程监督时，我们故意选择仅监督到第一个错误步骤为止。这使得结果监督和过程监督之间的比较更为直接。对于正确的解决方案，两种方法提供的信息相同，即每个步骤都是正确的。对于错误的解决方案，两种方法都会揭示至少存在一个错误，而过程监督还会揭示该错误的精确位置。

如果我们提供超出第一个错误之外的其他过程监督，那么过程监督的信息优势将更大。这一决策也使人类标注成本保持相似：在不依赖易于检查的最终答案的情况下，确定解决方案的正确性相当于识别其第一个错误。虽然大多数数学问题都有易于检查的最终答案，但我们预计这在更复杂领域中将不再适用。

3 大规模监督

我们使用PRM800K中的步骤级标签来训练PRM，为了确保ORM基线尽可能强大，我们从生成器中为每个问题均匀采样100个样本进行训练。这意味着ORM训练集与PRM800K没有重叠，并且其规模比后者大一个数量级。尽管这两个训练集无法直接比较，但它们各自代表了我们利用每种监督形式推动技术前沿的最佳尝试。

我们注意到，如果仅使用PRM800K的解决方案来训练ORM，将会出现问题，因为我们的主动学习策略已使数据集严重偏向于错误答案的解决方案。我们确实尝试通过混合均匀采样的解决方案来在PRM800K解决方案的超集上训练ORM，但发现这并未提高ORM的性能。

图3展示了每个奖励模型的“N中最佳”性能如何随N变化。由于已知多数投票是一个强大的基线（Wang等人，2022；Lewkowycz等人，2022），我们也将其包括为比较对象。虽然ORM的性能略优于多数投票基线，但PRM的性能远超两者。不仅对于所有N值，PRM都能达到更高的性能，而且随着N的增加，性能差距也在扩大。这表明，在搜索大量模型生成的解决方案时，PRM比ORM和多数投票更为有效。我们尝试使用RM加权投票（Li等人，2022；Uesato等人，2022）来结合PRM和多数投票的优点，但这并未显著提高性能。

4 小规模合成监督

我们发现PRM在大规模上优于ORM，但仅凭这一结果并不能全面反映情况。为了更准确地比较结果监督和过程监督，我们需要分离两个干扰因素。

首先，ORM和PRM的训练集不具备直接可比性：PRM训练集是通过主动学习构建的，它偏向于错误答案的解决方案，且规模比ORM训练集小一个数量级。

其次，最终答案评分可能会给那些虽然推理过程错误但最终答案正确的虚假解决方案提供正标签。这可能会损害ORM的性能，而这种影响是否应归咎于结果监督本身，尚不确定。

由于收集人类反馈的成本高昂，我们无法轻易通过人类标注者来消除这些因素的影响。相反，我们利用大规模PRM来监督较小规模的模型，从而进行相关消融实验。这种方法使我们能够以较低的成本模拟大量数据收集。

4.1 过程监督与结果监督的比较

我们现在对结果监督和过程监督进行直接比较。首先，我们从小规模生成器中为每个问题随机抽取1到200个解决方案。对于每个数据集，我们提供三种监督形式：来自PRMlarge的过程监督、来自PRMlarge的结果监督和来自最终答案检查的结果监督。这三种奖励模型的唯一区别在于监督形式的不同，其他方面均在同一数据集上进行训练。

在图4a中，我们通过每个奖励模型的“500中最佳”选择来评估其性能。我们发现，在所有数据收集规模下，过程监督的性能均显著优于两种结果监督形式。在图4b中，我们根据每个系列中最佳奖励模型在不同N值下的“N中最佳”性能来评估其性能。我们发现，使用PRMlarge进行结果监督的效果明显优于最终答案检查。这可以解释为，PRMlarge能够为那些虽然推理过程错误但最终答案正确的解决方案提供更好的监督。

目前尚不清楚是使用PRMlarge进行监督还是使用最终答案检查作为更合适的结果监督基线。虽然最终答案监督更明确地基于结果，但其在MATH数据集中的主要弱点——存在假阳性——可能被过度强调。在不太容易出现假阳性的领域中，使用PRMlarge进行结果监督能更好地代表结果监督。我们认为使用PRMlarge进行结果监督是更相关的基线，但鼓励读者自行得出结论。

4.2 主动学习的影响

最后，我们探究了主动学习的影响。我们针对每个问题的一个样本训练了一个小规模奖励模型，即PRM选择器（PRMselector），并使用该模型对每个问题的1000个样本进行评分。

为了训练我们更大的奖励模型，我们为每个问题选择了N个样本，其中80%是最具说服力（根据PRMselector）的错误答案样本，20%是剩余的最具说服力的样本（无论正确或错误）。我们使用PRMlarge对所选样本进行评分，并根据这些分数进行训练。这一过程确保了所有样本在PRMselector下都相对具有说服力，其中大部分样本已知至少包含一个错误，且我们的整体数据集不会过于偏向错误答案的解决方案。

该数据标记方案的性能如图4a所示。通过比较有无主动学习时最佳拟合线的斜率，我们估计这种主动学习形式的数据效率大约是均匀数据标记的2.6倍。我们注意到，在最大的主动学习数据集（每个问题200个样本）上训练的模型似乎略低于预期趋势线。我们对这一观察结果的最佳解释是，200个样本占整体选择池（1000个样本）的很大比例，这种相对缺乏多样性限制了主动学习可能带来的正面效果。

我们还初步探究了在数据收集过程中迭代重训PRMselector的影响。在每次迭代之间，我们使用所有当前已标记的数据重新训练PRMselector。不幸的是，我们观察到了这一过程中的不稳定性，但无法诊断其原因。由此产生的奖励模型的性能并不优于上述模型。我们预期某种形式的迭代重训在主动学习中是有益的，但目前还没有确凿的证据来支持这一说法。我们认为这是未来研究的一个有吸引力的方向。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述