引言
随着大语言模型(LLM)的快速发展,数据蒸馏+监督微调(SFT) 范式成为提升模型推理能力的关键路径。本文以三篇2025年第一季度发布的代表性工作(Light-R1、AM-Distilled、Open Thoughts)为核心,系统梳理数据蒸馏+SFT的完整流程,揭示其共性与差异,并探讨评测挑战与优化方向。这些工作均基于大规模蒸馏数据(最大规模达140万样本),旨在复现或超越DeepSeek-R1-Distilled系列模型的性能。
一、数据蒸馏+SFT范式Pipeline
1. 数据收集:问题(Query)的构建
数据收集阶段的核心目标是构建多样化、高质量的问题库,直接影响模型的泛化能力。
共性特征
- 数据来源:均依赖开源社区的蒸馏数据(如OpenR1-Math、OpenCoder)与原始数据(如NuminaMath、MetaMathQA)。
- 多样性筛选:覆盖数学、代码、科学、跨领域推理、创意写作等多任务类型。例如,AM-Distilled的数据集中数学占29.3%、代码占24.3%、信息检索占22.2%。
- 规模扩展:数据量级从60万(Ours)至140万(AM-Distilled)不等,但AM团队指出超大规模数据可能引入冗余,需平衡效率与质量。
差异性实践
- Light-R1:聚焦数学领域,通过两阶段过滤(DeepScaleR-1.5B模型筛选+DeepSeek-R1响应验证)从100万种子数据中仅保留7万样本,强调数据精准性。
- AM-Distilled:采用Qwen2.5-7B-Instruct进行自动标注,实现类别标签的动态分配与平衡。
- Open Thoughts:通过模糊字符串去重与DeepSeek-R1生成推理路径,最终形成100万验证样本。
2. 数据处理:思考过程(Thought)与答案(Answer)的优化
数据处理阶段的核心在于确保推理链的准确性、多样性与复杂性。
关键技术
- 准确性验证:
- GT验证:对有参考答案的任务(如数学、代码),采用规则匹配(如math-verify)与LLM评分(如Qwen2.5-7B-Instruct)双重校验。
- 执行验证:代码类问题通过沙盒环境运行测试用例。
- 质量控制:
- 格式一致性:强制要求
<reasoning>
与<answer>
的标准化格式。 - 去重与增强:采用n-gram检测连续重复内容,多源生成增强多样性。
- 格式一致性:强制要求
- 难度筛选:根据模型通过率(pass@k)量化问题难度,Light-R1通过两阶段筛选(α阈值过滤)生成Stage1(70k)与Stage2(3k)数据。
不足与挑战
- AM-Distilled:140万数据导致实验效率低下,且响应长度偏短。
- Light-R1:Stage2数据复现性差,可能因采样随机性或参数设置不稳定。
3. SFT&DPO:模型训练与偏好优化
训练策略对比
方法 | Light-R1 | AM-Distilled | Open Thoughts |
---|---|---|---|
基础模型 | Qwen2.5-32B-Instruct | Qwen2.5-32B-base | Qwen2.5-32B-Instruct |
多阶段SFT | Stage1→Stage2课程学习 | 单阶段SFT | 单阶段SFT |
DPO策略 | 拒绝错误答案,选择DeepSeek-R1正确样本 | 未明确提及 | 未明确提及 |
关键发现
- 课程学习有效性:Light-R1在Stage2引入3k高难度数据后,AIME24得分从73.0提升至75.8(表1),验证了渐进式训练对复杂推理的必要性。
- DPO增益:结合DeepSeek-R1的强模型生成偏好样本,Light-R1-DPO版本在GPQA上进一步提升1.0分。
- 模型融合:通过集成多阶段模型,Light-R1最终模型在AIME24达76.6分,逼近DeepSeek-R1。
二、性能评估与复现挑战
1. 模型性能横向对比
模型 | AIME24 | MATH500 | GPQA-D | LiveCodeBench |
---|---|---|---|---|
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 94.3 | 62.1 | 57.2 |
Light-R1-32B-DS | 78.1 | 94.45 | 68.0 | 57.67↓ |
AM-Distill-Qwen-32B | 72.7 | 96.2 | 64.3 | 59.1 |
OpenThinker2-32B | 76.7 | 90.8 | 64.1 | - |
观察结论:
- Light-R1在AIME24与GPQA上超越DeepSeek-R1,但MATH500略逊,反映其训练数据(偏数学难题)的针对性。
- AM-Distilled在代码生成(LiveCodeBench)表现最佳,受益于严格的执行验证流程。
2. 评测挑战与偏差来源
- 采样随机性:AIME24等难题需≥64次采样才能稳定评估,而MATH500波动较小(图1示例显示16次采样偏差超3%)。
- 复现偏差:
- AM-Distilled直接引用DeepSeek-R1结果,未独立验证。
- Open Thoughts评测显示DeepSeek-R1-Distill-32B得分为74.7(vs.官方72.6),因采样次数不足引入偏差。
- 技术细节缺失:Light-R1开源代码中
cutoff_len=20000
与评估脚本response_length=32768
冲突,导致复现失败。
三、优化方向与未来展望
1. 共性优化策略
- 动态难度调整:结合课程学习与在线难度评估,自适应筛选训练样本。
- 多模态验证:引入代码执行、符号计算等外部工具增强GT验证可靠性。
- 高效蒸馏:探索数据压缩技术(如核心集选取)以平衡规模与效率。
2. 差异化改进空间
- Light-R1:优化Stage2训练稳定性,引入强化学习(如GRPO)进一步挖掘小样本高价值数据。
- AM-Distilled:改进响应长度分布,采用滑动窗口去重策略减少冗余。
- Open Thoughts:探索未验证数据的潜在价值(表2显示未验证数据在LCBv2得分更高)。
3. 评测标准化倡议
- 统一采样协议:规定最低采样次数(如AIME任务≥64次)。
- 开源基准套件:提供标准化评估代码与预训练检查点,减少实现差异。
结论
数据蒸馏+SFT范式已成为提升LLM推理能力的主流路径,但其效果高度依赖数据质量、训练策略与评测严谨性。通过对比Light-R1、AM-Distilled与Open Thoughts的工作,我们发现:多阶段课程学习、严格GT验证与偏好优化是性能提升的核心,而评测随机性与复现偏差仍是亟待解决的挑战。未来方向需聚焦于动态数据优化、高效蒸馏技术与评测标准化,以推动该范式的持续演进。
[1] Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
[2] 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training
[3] Outperforming DeepSeekR1-32B with OpenThinker2
附录:关键数据参考
- 表1:Light-R1训练阶段性能演进
- 图1:不同采样次数下的AIME24得分波动
- 表2:Open Thoughts验证数据对性能影响