摘要:监督微调(SFT)通常用于训练语言模型,使其能够模仿给定指令下的标注响应。在本文中,我们挑战了这一范式,并提出了批判性微调(CFT)策略,即让模型学会批判嘈杂(或含噪声)的响应,而不仅仅是模仿正确的响应。受人类学习过程中强调批判性思维的启发,CFT鼓励进行更深入的分析和细微差别的理解,这些特质在标准的SFT中常常被忽视。为了验证CFT的有效性,我们从WebInstruct中构建了一个包含50,000个样本的数据集,并使用GPT-4o作为教师模型,以(输入=[查询; 嘈杂响应],输出=批判)的形式生成批判。在这个数据集上,CFT在六个数学基准测试上的表现一致地比使用Qwen2.5、Qwen2.5-Math和DeepSeek-Math等不同基础模型的SFT提高了4%-10%。我们进一步将研究扩展到MetaMath和NuminaMath数据集,并观察到了与SFT相比的类似增益。值得注意的是,我们的Qwen2.5-Math-CFT模型仅使用50,000个样本进行训练,就在大多数基准测试上匹配或超越了如AceMath和Qwen2.5-Math-Instruct等竞争性模型的表现,而后两者使用了超过200万个样本。消融研究表明,CFT对嘈杂响应的来源和教师批判模型具有鲁棒性。通过这些发现,我们认为基于批判的训练为提升语言模型的推理能力提供了一种更有效的替代方案。Huggingface链接:Paper page,论文链接:2501.17703
1. 引言
近年来,大型语言模型(LLMs)在处理现实世界问题中展现了前所未有的性能。其中,监督微调(SFT)是一项核心技术,它训练LLMs遵循自然语言指令。然而,SFT过程中LLMs被迫模仿标注响应,尽管已经有许多努力来构建高质量的SFT数据集以提升LLMs的通用指令遵循能力,但这种模仿学习的范式在模型性能提升上逐渐显现出局限性,尤其是在处理复杂推理任务时。
本文挑战了这一传统范式,并提出了批判性微调(CFT)策略。受人类学习过程中强调批判性思维的启发,CFT让模型学会批判嘈杂(或含噪声)的响应,而不仅仅是模仿正确的响应。这种策略鼓励模型进行更深入的分析和细微差别的理解,这是标准SFT常常忽视的特性。
2. 方法与数据集
2.1 WebInstruct数据集
为了验证CFT的有效性,我们从WebInstruct中构建了一系列微调数据集。WebInstruct是一个从在线教育资源和测验网站收集的指令数据集,涵盖了广泛的主题,包括数学(65%)、物理(8%)、化学(4%)、商业(10%)和人文(4%)等。该数据集中的响应由大型语言模型(如Qwen-72B和Mixtral)提取和精炼,但由于缺乏验证或质量控制,这些响应往往包含噪声。
我们从WebInstruct中策划了以下子集:
- WebInstruct-SFT:直接从原始WebInstruct数据集中抽取的50,000个样本,错误率较高(超过50%)。
- WebInstruct-verified:使用GPT-4o-1120判断原始答案是否正确,并保留了前50,000个样本作为“验证”的SFT数据。
- WebInstruct-GPT-4o:重用WebInstruct-SFT中的问题,但将答案替换为由GPT-4o-1120生成的答案。
- WebInstruct-CFT(我们的):从WebInstruct-SFT中派生的50,000个子集,其中GPT-4o-1120对原始响应提供了详细的批判。大约56%的响应在这个子集中被判断为“正确”,其余被认为是“错误”。尽管这些批判中包含一些由GPT-4o引入的错误,但该数据集的质量与WebInstruct-GPT-4o相当。
- WebInstruct-CFT-Tiny(我们的):WebInstruct-CFT的一个较小版本,仅包含4,000个样本,用于训练我们的32B模型。
2.2 MetaMath和NuminaMath数据集
除了WebInstruct外,我们还为MetaMathQA和NuminaMath数据集合成了批判。从每个数据集中随机抽取50,000个样本,并使用GPT-4o对原始响应进行批判。然后,我们在这些数据集上应用CFT,以展示我们的方法在其他数据集上的泛化能力。
2.3 训练目标
CFT的训练目标很简单:将问题和嘈杂响应连接起来作为输入,然后优化模型参数以生成批判。形式化地,训练损失为:
其中,θ 是语言模型的参数,x 是查询,y 是嘈杂响应,c 是对查询-响应对的批判。
3. 实验
3.1 实验设置
我们在广泛的数学推理基准测试上评估了我们的方法,包括MATH、Minerva-Math、GSM8K等标准数学推理基准测试,以及AIME2024、AMC2023和OlympiadBench等更具挑战性的竞赛级数学基准测试。此外,我们还通过TheoremQA、MMLU-Pro和GPQA等基准测试进一步扩展了我们的评估范围,以涵盖更广泛的STEM(科学、技术、工程和数学)推理能力。
3.2 主要结果(CFT vs. SFT)
3.2.1 基础模型选择
我们实验了三种7B规模的基础模型:DeepSeek-Math-7B、Qwen2.5-7B和Qwen2.5-Math-7B。结果表明,Qwen2.5-Math-7B作为基础模型表现最强,其基础版本在基准测试上的平均准确率为37.8%。经过CFT增强后,其性能提升至57.1%的平均准确率。
3.2.2 性能提升
CFT在所有基准测试上一致地优于所有SFT基线。在DeepSeek-Math-7B上,CFT比SFT-GPT4o提高了3.5%的绝对准确率;在Qwen2.5-7B上,CFT比SFT-verified提高了10.4%的绝对准确率;在Qwen2.5-Math-7B上,CFT比SFT-GPT4o提高了6.7%的绝对准确率。
3.2.3 训练动态
图2展示了在Qwen2.5-Math-7B上不同方法的训练动态。CFT在大约30步时表现出更快的收敛速度,并且在整个训练过程中保持更高的性能,如在MATH基准测试上达到约80%的准确率,相比SFT-G的70%和SFT-V的60%,以及在Minerva-Math基准测试上达到40%的准确率,相比两者的20%。
3.3 更多结果(CFT模型 vs. 现有模型)
3.3.1 7B CFT模型
我们的Qwen2.5-Math-7B-CFT在7B规模模型中实现了最高的平均性能(48.1%),同时使用的训练数据显著减少(50,000个样本)。具体而言:
- 它大幅优于其他专业的数学模型,如Deepseek-Math-7B-Instruct(23.9%平均准确率)、Mathstral-7B(32.9%平均准确率)和NuminaMath-7B-CoT(29.9%平均准确率)。
- 尽管规模较小,但它与更大的模型相比也表现出强大的性能。例如,它比Llama-3.1-70B-Instruct(40.4%平均准确率)和NuminaMath-72B-CoT(39.1%平均准确率)表现更好,并且在几个基准测试上(如AMC23上67.5% vs 70.0%)与Qwen2.5-Math-72B-Instruct(56.4%平均准确率)竞争,尽管它只使用了十分之一的参数和更少的训练数据。
3.3.2 32B CFT模型
我们对Qwen2.5-32B-Instruct-CFT和Sky-T1-32B-Preview进行了详细比较。结果显示:
- Qwen2.5-32B-Instruct-CFT仅用4,000个训练样本就达到了最佳性能,而Sky-T1-32B-Preview使用了17,000个样本。这种训练数据的4倍减少证明了我们的基于批判的方法在学习更少样本时的有效性。
- 在GPQA上,我们的模型达到了52.5%的准确率,超过了Sky-T1的49.5%。在TheoremQA上,它表现出与Sky-T1相当的性能,有时在训练过程中超过它。在AMC23上,我们观察到显著提高到77.5%的准确率,相比Sky-T1的62.5%,并保持在75%以上的稳定性能。
3.4 与基于RL的方法的比较
我们与SimpleRL进行了比较,后者是DeepSeek-R1的开源复现。我们考虑了纯RL训练(SimpleRL-Zero)和Distill+RL训练(SimpleRL)作为我们的竞争对手,两者都需要32xH100训练1.5天。相比之下,我们的方法仅需要8xH100训练1小时。此外,我们的方法不需要长解码长度,从而提高了效率。
表5显示,CFT可以将Qwen2.5-Math-7B-base提高到与SimpleRL相同的水平。在几个基准测试上,如AMC23和Minerva-Math,CFT可以显著优于SimpleRL。最大的差异是AIME24,该基准测试仅包含30个测试问题,因此准确率受随机性影响较大。
3.5 消融研究
3.5.1 数据集来源
我们消融了不同训练数据集对模型性能的影响。结果表明,当使用CFT训练时,WebInstruct在性能上超过了MetaMathQA和NuminaMath,这表明CFT的有效性不仅仅取决于解决方案数据的质量。相反,通过学习识别和批判错误的解决方案,模型可以发展出更强的数学推理能力,即使是从不完美的演示中学习。
3.5.2 响应来源
我们比较了使用Qwen2.5-Math-7B自身生成的解决方案和WebInstruct数据集中的原始解决方案进行CFT训练的效果。结果表明,使用原始解决方案实现了相当的性能(平均准确率为57.1% vs 55.1%),并且在一些更具挑战性的基准测试上(如Minerva-Math上提高了9.2%)表现更好。
3.5.3 教师批判模型
我们比较了使用不同教师批判模型(GPT-4o-mini和GPT-4o-1120)时CFT的性能。结果表明,即使使用相对较弱的批判模型GPT-4o-mini,CFT也显著优于SFT-verified基线(平均准确率为52.0% vs 40.4%),并且在MATH(提高11.9%)和Minerva-Math(提高23.9%)上有显著改进。使用更强的批判模型GPT-4o-1120在所有基准测试上实现了更好的性能(平均准确率为57.1%),并且在GSM8K(提高6.4%)和OlympiadBench(提高6.5%)上有显著增益。
4. 局限性
4.1 含噪声的批判数据
我们的消融研究表明,批判反馈的质量显著影响CFT的有效性。通过手动检查GPT-4o-1120在WebInstruct上生成的50个随机批判实例,我们发现大约20%的批判包含错误或不准确的反馈。这些错误可能表现为误判正确的步骤为错误、忽视关键的错误或提供不精确的数学解释。这表明,尽管我们的当前方法显示了有希望的结果,但通过使用更可靠和可验证的批判数据,可以进一步提高CFT的性能。
4.2 自我批判的局限性
我们探索了将自我批判机制纳入我们的框架的潜力。结果表明,这些方法在性能上一致地低于直接推理。我们探索了两种方法:
- 单次通过自我批判:模型解决问题并在一次通过中批判其解决方案。如果检测到错误,则生成新的解决方案。
- 两阶段自我批判:模型首先生成解决方案,然后单独评估它。如果发现问题,则模型迭代此过程(最多8次尝试)。
我们的结果表明,直接推理在温度为0.0时实现了最佳性能(在MATH上为80.2%,在Minerva-Math上为42.3%)。两种自我批判方法都随着温度的升高而性能下降。单次通过方法在温度从0.1增加到0.6时,在MATH上的准确率从77.2%下降到73.5%,在Minerva-Math上也有类似趋势。两阶段方法性能稍好,但仍低于直接推理。
我们观察到自我批判的两个主要问题:
- 模型往往无法保持一致的评估标准,要么错过真正的错误,要么错误地标记正确的解决方案。
- 迭代尝试中需要较高的温度以避免重复输出,这引入了模型推理过程中的不稳定性。
基于这些发现,我们的最终CFT实现使用直接推理而不包含自我批判机制。
5. 相关工作
5.1 指令微调
指令微调是将预训练语言模型与人类期望对齐的关键部分。当前的指令微调数据集要么基于人类标注(如FLAN、T0、SuperNI),要么基于模型合成(如Self-Instruct、WizardLM、WildChat)。这两种类型的指令数据集都显著提高了LLMs在一般评估任务上的性能。
5.2 数学指令微调
为了进一步提升LLMs在数学领域的性能,开发了数学指令微调模型。最近,出现了一系列努力来扩大数学指令数据集的规模,如MAmmoTH2、Open-MathInstruct和AceMath等。这些方法在数学推理数据集上显示了巨大的性能提升,但我们也观察到随着指令数据规模的进一步扩大,边际增益逐渐减小,这表明需要更高效的训练算法。
5.3 批判性学习
教AI学会批判是追求AGI(通用人工智能)的长期目标。自我修正的概念自2023年以来在LLMs中崭露头角。然而,后续研究表明,推理中的自我修正并不十分可靠。随着GPT-o1的兴起,LLMs的自我修正再次展示了其改进自身推理能力的潜力。
批判模型与自我修正不同,它使用一个专门的模型为现有模型提供反馈以协助生成过程。奖励模型是数学推理中最流行的批判模型。然而,这些批判模型大多设计用于直接估计奖励分数,而不进行中间推理。与我们的方法最接近的是“批判出声”(Critique-out-loud),但它仅作为奖励模型而不是执行者。
6. 结论
在本文中,我们介绍了批判性微调(CFT),这是一种从根本上重新构想语言模型如何从指令数据中学习的新范式。与传统的监督微调(SFT)不同,SFT专注于响应模仿,而CFT则强调批判性思维,通过教模型批判和分析响应来实现。通过在不同基础模型和基准测试上的广泛实验,我们证明了CFT在数学推理任务上一致地比SFT提高了4%-10%,同时需要显著更少的训练样本(50,000 vs 200万+)。值得注意的是,我们的CFT训练模型仅通过8H100小时的训练,就达到了与最先进的强化学习方法(如DeepSeek-R1)相当的性能,而后者需要140倍的计算资源。CFT的益处不仅限于数学推理,还扩展到更广泛的STEM领域,如在GPQA和TheoremQA基准测试上的优越性能。即使没有传统的指令微调,CFT训练的模型也能有效地遵循指令,这挑战了SFT或RL对于指令遵循是必要的传统观念。这些发现为改进语言模型能力开辟了新的方向,如将CFT与其他训练范式(如SFT和RL)结合、扩展到多模态设置以及研究其理论基础。我们认为,CFT代表了在使语言模型训练更高效和有效方面迈出的重要一步,有可能减少开发高性能模型所需的计算和数据资源,同时提高其推理能力。