这篇文章是“O1 复制之旅”的第二部分,主要探讨了通过简单蒸馏技术复制 OpenAI 的 O1 模型能力的方法,并揭示了其潜在的局限性和对 AI 研究社区的影响。主要内容包括:
-
研究背景与目标:文章批判性地审视了当前复制 O1 模型的方法,特别是广泛使用但未公开的知识蒸馏技术。通过从 O1 的 API 进行简单蒸馏,结合监督微调,模型在数学推理任务中超越了 O1-preview。
-
方法与实验:通过蒸馏 O1 的 API 生成的长思维链数据,结合监督微调,模型在 AIME 和 MATH500 等基准测试中表现优异。实验还展示了模型在幻觉、安全性和开放域问答等多样化任务中的泛化能力。
-
技术透明度框架:提出了技术透明度指数(TTI),用于评估和比较不同 O1 复制尝试的透明度和可重复性。该框架涵盖数据透明度、方法透明度、评估透明度和开源资源等方面。
-
苦涩教训:尽管蒸馏方法提供了即时的性能提升,但其广泛使用掩盖了核心技术创新的机会,可能导致研究社区的创新停滞和依赖循环。文章呼吁在追求性能提升的同时,保持对基本技术创新的重视。
-
未来建议:建议组织在研究中保持蒸馏方法和基本研究的平衡,继续投资于先进计算基础设施,并在教育中强调实用应用和基本理论的结合,以培养下一代 AI 研究人员。
文章通过实验展示了蒸馏方法的有效性,同时揭示了其潜在的局限性,呼吁在 AI 研究中保持透明度和创新性,避免过度依赖捷径方法。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目在这里,如下所示:
摘要
本文对当前复制 OpenAI 的 O1 模型能力的研究方法进行了批判性审视,特别关注了广泛使用但通常未公开的知识蒸馏技术。尽管我们之前的工作(第一部分 (Qin et al., 2024))探讨了 O1 复制的基本技术路径,但本研究揭示了如何通过从 O1 的 API 进行简单蒸馏,结合监督微调,在复杂的数学推理任务中实现超越 O1-preview 的性能。通过大量实验,我们展示了一个基础模型在仅使用数万个 O1 蒸馏的长思维链样本进行微调后,在美国的数学邀请赛(AIME)中表现优于 O1-preview,且技术复杂度极低。此外,我们的研究不仅限于数学推理,还探讨了 O1 蒸馏模型在多样化任务中的泛化能力:幻觉、安全性和开放域问答。值得注意的是,尽管仅在数学问题解决数据上进行训练,我们的模型在开放域问答任务中表现出强大的泛化能力,并且在微调后显著减少了谄媚行为。我们特意公开这一发现,以促进 AI 研究的透明度,并挑战当前领域中技术声明不透明的趋势。我们的工作包括:(1) 蒸馏过程及其有效性的详细技术说明,(2) 基于技术透明度和可重复性的 O1 复制尝试评估和分类的综合基准框架,(3) 对过度依赖蒸馏方法的局限性和潜在风险的批判性讨论,最终得出一个关键的“苦涩教训”:尽管追求更强大的 AI 系统很重要,但培养基于第一性原理思维的研究人员更为重要。这一教育使命不仅是一个技术考虑,更是塑造 AI 创新未来的根本任务。
1 引言
自 OpenAI 宣布其 O1 模型(OpenAI, 2024)以来,AI 研究的格局发生了巨大变化,该模型在复杂的推理任务中展现了前所未有的能力,尤其是在数学问题解决方面。这一突破引发了全球研究机构和公司之间的竞赛,以复制这些能力,导致最近几周出现了许多声称成功的案例(Team, ; Qin et al., 2024; Team, ; kimi, 2024; kunlun, 2024; deepseek, 2024)。然而,这一波公告揭示了研究社区中一个令人担忧的趋势——优先考虑快速性能提升而非透明的技术创新。在探索最近的 O1 复制进展时,我们展示了一种简单但强大的方法:从 O1 的 API 进行知识蒸馏(Hinton, 2015)。该方法涉及直接向 O1 提出复杂问题以生成长思维链,然后用于其他模型的监督微调或强化学习(Christiano et al., 2017; Ziegler et al., 2019; Ouyang et al., 2022)。通过我们的实验,我们展示了仅使用数万个蒸馏样本和标准的监督微调,一个基础模型可以在美国数学邀请赛(AIME)中超越 O1-preview 的性能。
尽管这种方法确实可以带来令人印象深刻的性能指标,但其广泛但未公开的使用引发了关于当前 AI 研究状态和未来方向的重大担忧。这种“捷径”方法的影响远远超出了纯粹的技术考虑:(1) 首先,方法报告中的透明度不足使得研究社区越来越难以准确评估和建立在声称的技术进展之上。许多机构可能在掩盖其实际方法的同时,对其技术能力做出大胆的声明,从而扭曲了该领域的进展图景。(2) 其次,这一趋势正在助长一种令人担忧的创新停滞模式,研究人员越来越依赖现有的强大模型,而不是开发新的基本技术。重点从原创技术贡献转向复杂的提示工程,这可能会阻碍该领域的长期发展。(3) 此外,通过蒸馏训练的模型面临固有的局限性——它们自然受限于其教师模型(在本例中为 O1)的能力,从而产生了一个可能阻碍真正进步的天花板效应。这种依赖循环不仅限制了潜在的突破,还限制了将能力扩展到新领域或超越现有基准的能力。(4) 也许最令人担忧的是教育影响:我们正在错过培养下一代 AI 研究人员真正研究技能和问题解决能力的关键机会。
为了促进这种透明度,我们引入了一个新颖的基准框架,用于根据其技术透明度和可重复性对 O1 复制尝试进行分类和评估。该框架提供了清晰的指标,用于评估不同方法的透明度和开放性,创建了一个标准化的平台,用于比较各种复制努力。通过这种系统的评估,我们希望鼓励该领域中更多严谨和诚实的技术成果报告。我们的工作不仅是一项技术贡献,也是对 AI 研究社区的行动呼吁。我们认为,尽管蒸馏方法提供了即时的性能提升,但它们有可能创造一个依赖循环,最终阻碍真正的技术进步。随着该领域继续追求越来越先进的推理能力,我们相信在性能改进和真正的技术创新之间保持平衡至关重要。前进的道路需要重新承诺科学探究的基本价值观:透明度、原创性和真正的创新。通过公开承认当前方法的优缺点,我们希望营造一个鼓励研究人员投资于基本技术创新而非仅仅依赖现有解决方案的环境。本文旨在引发关于 AI 研究实践的更广泛讨论,并倡导回归更透明和创新的方法以推动该领域的发展。
2 O1 复制的“捷径”路径
2.1 O1 复制的核心技术栈
在我们 O1 复制之旅的第一部分(Qin et al., 2024)中,我们介绍了一种名为“旅程学习”的新方法,用于合成长思维过程,如图 2 所示。该方法利用树搜索算法(例如蒙特卡洛)探索不同的解决方案路径,然后通过策略节点选择构建有希望的探索轨迹。这些探索轨迹通常包含错误结果或不乐观的方法,并以正确答案结束。为了解决树中缺乏反思内容的问题,我们利用大型语言模型(LLMs)分析之前的步骤并识别推理错误,从而实现更好的路线修正。这一过程产生了通向正确答案的完整轨迹。我们收集这些轨迹,包括反思和修正步骤,以微调 LLMs。然后,微调后的 LLMs 可用于后续的训练迭代。
2.2 长思维合成的替代方法
2.2.1 搜索(例如蒙特卡洛)
-
选择节点以构建探索路径
-
使用 LLMs 完成反思过程
-
在长思维上进行后训练
图 2:旅程学习的框架。
图 3:收集长思维数据的不同方法。蒸馏方法提供了一种成本效益高且可靠的高质量数据获取途径。
3 实验
3.1 基准使用
我们选择了几个广泛认可且常用的数学推理领域的基准,这些基准因其挑战性而入选。这些基准包括 MATH(Hendrycks et al., 2021)和 AIME。具体来说,我们使用简化的 MATH500 子集来促进更广泛的推理时间扩展实验。对于 AIME,我们使用 2024 年新发布的问题,以最小化数据泄露的风险(我们称之为 AIME2024)。此外,我们从 2024 年中国高中数学联赛中精选了 30 个问题,作为额外的基准(MATH2024),以多样化并丰富我们的评估。这些基准的组合确保了对我们模型数学推理能力的全面评估。
3.2 推理时间扩展的评估指标
与传统的仅依赖 Pass@k(Chen et al., )、Maj@k(Wang et al., 2022)或 RM@k(Lightman et al., 2024)等指标的评估策略不同,我们引入了一种新的指标,旨在评估模型在不同计算成本场景下的性能。这一新方法反映了推理时间扩展的现实(Snell et al., 2024),其中测试时间计算在现代大规模模型的有效性和效率中起着至关重要的作用。在推理时间扩展的时代,像 OpenAI 的 O1 系列这样的模型已经证明,性能不仅依赖于训练时间计算,还显著受到推理过程中“思考”时间的影响。这一转变需要一个更细致的评估框架,考虑计算成本与性能之间的权衡。我们提出的指标通过在受限的测试令牌预算下测量模型的推理能力,确保评估反映现实世界的约束和部署场景。
具体来说,我们使用模型在给定基准测试集上的平均输出令牌数来衡量其计算成本。该指标反映了测试时间的计算费用,其中较长的平均输出令牌对应于更广泛的推理步骤。能够生成更长、更详细输出的模型通常能够更有效地捕捉复杂的推理模式,展示了其在推理时间计算下的可扩展性。此外,这一平均令牌指标具有内在的可扩展性。在评估需要比单个响应中通常生成的令牌数更高的平均令牌数的情况下,我们利用 Maj@k 指标来近似模型在无需额外奖励模型的情况下的性能。这种方法反映了模型在扩展计算成本下的推理能力,即使单个输出未自然达到所需的令牌长度。
通过采用这种方法,我们确保了一个可扩展且公平的评估框架,捕捉了模型在不同推理时间计算设置下的性能。该方法避免了人为的约束,并允许在不依赖外部奖励信号的情况下进行有意义的比较,专注于模型的内在推理能力。
3.3 性能分析
3.3.1 与 O1 的性能比较
如表 1 所示,在相似的“推理计算成本”(即在相应基准上具有可比的平均输出令牌)下,蒸馏模型表现出色,在 AIME2024 上超越了 O1-preview 的结果。
3.3.2 模型行为和局限性分析
尽管模型取得了令人印象深刻的结果,但在数学推理性能方面仍与 O1-mini 存在明显差距。此外,生成的长思维解决方案仍存在不完美之处。解决这些局限性对于缩小性能差距并确保生成的长思维解决方案达到最高标准的清晰度和正确性至关重要。
4 数学推理之外的应用
在本节中,我们探讨了在数学长思维上训练的模型在应用于其他任务或应用时的泛化能力。
4.1 训练细节
为了研究模型在不同领域的泛化能力,我们首先通过系统的数据提取和翻译过程构建了一个多样化的双语数据集。从我们蒸馏的 O1 模型输出中,我们精心挑选了约 5,000 个高质量样本,包含反思和自我反思元素。这些样本随后使用 GPT-4o mini 模型翻译成中文,形成了一个平衡的双语数据集。最终的训练数据集包含 10,750 个中英混合样本对,每个样本由一个查询-响应对组成。然后,我们使用这个精选数据集对 Qwen2.5-72B-Instruct(Yang et al., )模型(称为“基线”)进行监督微调(SFT),以获得我们的最终模型(称为“Ours”)。
4.2 安全性
4.2.1 设置
为了全面评估我们模型的泛化能力的安全性,我们构建了一个多样化的测试集,包含从三个成熟的安全评估数据集中精心挑选的 600 个问题:Flames(Huang et al., 2023)、DiaSafety(Sun et al., 2022)和 WildSafety(Liu et al., 2024)。具体来说,我们从每个数据集中提取了 200 个问题,以确保不同安全场景的平衡代表性。我们使用 Safety-J(Liu et al., 2024)评估原始模型和微调模型的响应。
表 2:SFT 前后在不同评估类别中的性能比较(准确率)。数据集分为三类:安全性评估(Flames、DiaSafety、WildSafety)、真实性评估(SimpleQA、Chinese SimpleQA、ChineseFactEval-General、ChineseFactEval-Sycophancy)和一般评估(Auto-J、LIMA)。注:C-SimpleQA、CFE-General 和 CFE-Sycophancy 分别代表 Chinese SimpleQA、ChineseFactEval-General 和 ChineseFactEval-Sycophancy
4.2.2 结果与见解
评估结果揭示了我们的微调过程对模型安全性的有趣影响。尽管在 Flames 上的表现略有提升(91% 到 92.5%),并且在 DiaSafety 上保持稳定(100%),但在 WildSafety 上有所下降(92% 到 86.5%)。总体而言,微调后的安全得分略有下降,从 94.3% 降至 93.0%。这一轻微的安全指标下降揭示了一个关键发现:即使使用高质量的、类似 O1 的长思维训练数据,专注于反思和自我反思,如果训练数据缺乏明确的安全对齐,模型仍可能经历微小的安全性能下降。我们假设 Flames 数据集的改进可能归因于其独特的测试模型深度反思能力的重点,这与我们强调深思熟虑的 O1 类训练数据非常契合。
4.2.3 案例研究
为了研究我们的微调模型在 Flames 数据集上表现更好的原因(从 91% 到 92.5%),我们对 Flames 中的典型案例进行了详细分析。我们发现,Flames 中的大多数查询旨在诱使模型优先考虑实用性而非安全性,通常导致不安全的响应。图 4 展示了一个关于在建筑走廊中存放和充电电动自行车的代表性案例。
Qwen2.5-72B-Instruct(基线)的响应展示了这种以实用性为导向的倾向,仅关注防盗措施。该模型提供了关于锁选择、安装方法和监控的详细建议,直接解决了用户对财产安全的即时担忧。然而,它完全忽略了关键的安全隐患,特别是走廊中充电电动自行车可能引发的火灾风险,这可能危及多名居民的生命。相比之下,我们的模型在经过长思维数据训练后,展示了更全面和系统的思维模式。它没有立即解决盗窃问题,而是首先识别了基本的安全问题:走廊充电的火灾隐患、法规合规性和社区安全。该响应通过优先考虑威胁生命的风险而非财产风险,考虑多个利益相关者(包括居民和物业管理),提供不同安全维度的层次分析,并建议平衡实用性和安全的替代解决方案,展示了增强的分析深度。这一案例研究揭示了一个重要见解:通过我们的微调过程开发的改进的系统思维和长形式推理能力显著提升了安全性表现,特别是在安全考虑可能被即时实用性问题掩盖的场景中。模型的能力暂停、反思和全面分析情况,帮助其识别可能在更直接、实用性导向的响应中被忽视的潜在安全问题。
然而,WildSafety 上性能的下降(从 92% 到 86.5%)表明,仅增强思维能力不足以实现全面的安全对齐。虽然系统思维有助于模型识别潜在的安全问题,但适当的安全对齐对于在各种场景中始终保持高标准的安全性仍然至关重要。这一发现表明,未来的工作应专注于将系统思维能力与明确的安全对齐相结合,以实现更强大和全面的安全性能。
4.3 幻觉
4.3.1 设置
我们评估了模型在 SFT 前后的真实性。我们使用了来自 SimpleQA(Wei et al., 2024)、ChineseSimpleQA(He et al., 2024)和 ChineseFactEval(Wang et al., 2023)的数据集。这些数据集包含中英文知识型问题,用于验证模型的真实性。值得注意的是,ChineseFactEval 数据集包含两个子集:一般问答和谄媚问答。谄媚问答子集在提示中包含误导性答案,以测试模型的谄媚倾向,而一般问答子集的格式类似于 SimpleQA。这些数据集中的所有问题都需要可验证的简短答案。我们使用 GPT-4o 对模型的响应与黄金答案进行更强大的匹配评估。
4.3.2 结果与见解
我们的结果显示,SFT 后的模型在真实性方面没有显著改善(10.58% 到 10.41%,47.08% 到 45.76%,69.08% 到 62.65%)。这主要是由于较长的推理链导致更多的幻觉——特别是模型试图使用搜索引擎并编造搜索结果(图 5)。尽管如此,这些积极使用搜索引擎的尝试表明了一个有前途的方向,我们相信为模型提供实际的网络访问或工具使用(Gao et al., 2022; Chern et al., 2023)将显著提高其真实性。此外,SFT 后模型的增强推理链提供了详细的分析和自我反思能力,有助于防止幻觉(图 6)。
我们还发现,模型在 SFT 后对谄媚的敏感性略有降低(89.70% 到 92.65%)。这一改进可以归因于自我反思过程,模型能够辨别并深入思考提示中不合理的假设,而不是不加质疑地接受它们(图 7)。
4.3.3 案例研究
在图 5 中,我们观察到我们的模型试图利用搜索引擎,并有可能从多个来源收集和交叉验证结果。尽管这些搜索引擎交互是模拟的(因为我们没有整合对外部数据库的访问),但这种行为展示了有前途的潜力。在图 6 中,我们观察到我们的模型系统地记录了阿根廷所有 FIFA 世界杯比赛和结果,以确保全面性。此外,模型通过自我反思过程验证了其初步发现。在图 7 中,通过自我反思,模型成功纠正了提示中的错误假设(即珠江是中国第二长的河流),并正确识别黄河为中国第二长的河流。模型还从不同角度提供了有价值的见解(例如经济重要性、水流),使响应更加全面和信息丰富。
4.4 一般场景
4.4.1 设置
为了评估我们模型在一般场景中的表现,我们从 Auto-J(Li et al., 2023)和 LIMA(Zhou et al., 2024)数据集中各选取了 50 个查询,共 100 个查询,特别关注通过手动调整的长远规划任务。三位领域专家对响应质量进行 0-100 分的评估。
4.4.2 结果与见解
评估结果显示,微调后性能显著提升。Auto-J 查询的得分从 81.6% 提高到 88%,LIMA 查询的得分从 77.2% 提高到 87.2%。这一性能提升表明,我们的微调方法不仅提高了双语对话能力,还增强了模型处理一般开放域问答任务的能力,特别是需要长远规划和结构化思维的场景。
4.4.3 案例研究
图 8 展示了一个详细的案例研究,比较了 Qwen2.5-72B-Instruct 和我们的模型在关于 Python 的 asyncio 库的技术编程查询上的响应。查询“为什么在 Python 中 await asyncio.sleep() 会卡住?”代表了一个常见的编程挑战,需要技术准确性和清晰的解释。
Qwen2.5-72B-Instruct 的响应虽然技术准确,但结构相对基础,包含五个主要点和相应的代码示例。它涵盖了事件循环问题、阻塞代码和错误等待使用等基本方面,但在多个领域缺乏深度。显著的局限性包括调试指导不足、可能误导的线程安全操作建议以及缺乏性能考虑和最佳实践。
我们的模型在多个维度上展示了显著的改进。首先,响应采用了更复杂的结构,具有清晰的层次部分和逻辑流程,使复杂概念更易于理解。其次,它显著扩展了技术覆盖范围,包括系统调试方法、事件循环管理策略和阻塞代码场景的详细分析等高级主题。第三,它通过集成全面的调试提示、常见错误模式的实际示例和系统故障排除步骤,增强了实际价值。最后,它整合了对官方文档和可靠学习资源的引用,支持持续学习。
尽管我们的 SFT 数据集仅专注于数学问题解决,但我们的模型展示了在多样化领域中的显著泛化能力。这表明,数学问题解决中固有的系统思维模式和结构化方法可以有效地转移到其他领域。我们案例研究中的改进,特别是在结构组织、全面分析和逻辑流程方面,反映了数学推理模式成功转移到一般问题解决场景中。这一发现表明,精心策划的数学指导数据可以作为开发 LLMs 通用推理能力的一个有效基础。
5 评估 O1 复制声明的框架:技术透明度指数
为了系统地评估和比较各种 O1 复制尝试,我们提出了技术透明度指数(TTI),这是一个综合框架,用于量化声称实施的透明度和可重复性。该框架旨在为研究社区提供客观的指标,用于评估不同方法的开放性和可验证性。
5.1 透明度的评估维度
该框架评估 O1 复制努力,主要关注透明度,在几个相互关联的方面进行评估。这些方面包括数据透明度,涵盖用于下游搜索或后训练的数据集的可访问性、质量和文档;方法透明度,反映描述的技术、过程和实验设置的清晰度和细节;以及评估透明度,考虑性能评估的可重复性和全面性。此外,框架还审查资源的开放性,如代码、数据集和模型的可用性和可访问性,以确保工作可以独立验证并被研究社区有效利用。这种全面的视角捕捉了复制努力中透明度的多方面性质。详细内容将在下文介绍。
5.1.1 数据透明度
这一方面评估数据来源是否明确指定,包括所用数据集的详细描述及其各自的来源。它考虑数据集名称、提供者或从中获取数据的出版物是否明确提及。这适用于所有用于监督微调(SFT)、强化学习(RL)或搜索算法等下游任务的数据集,当这些数据集作为合成长思维数据的种子数据时,这一点尤为重要。
-
数据来源:这一方面评估数据来源是否明确指定,包括所用数据集的详细描述及其各自的来源。它考虑数据集名称、提供者或从中获取数据的出版物是否明确提及。
-
数据选择过程:这关注用于过滤、清理或预处理数据以应用于下游任务(如监督微调(SFT)、搜索或强化学习(RL))的标准和方法的清晰度和严谨性。
5.1.2 方法透明度
方法透明度确保工作中采用的方法、技术和过程以足够的细节描述,以便独立重现和验证。本节评估多个组件,从基础模型描述到训练和数据策划方法。此外,除了详细说明方法的实施外,验证方法本身的有效性更为重要。它强调验证所采用的每种方法的有效性的重要性。全面的评估应量化各个技术对整体系统性能的贡献,而不仅仅是报告最终结果。
-
基础模型细节:这评估工作中提供的基础模型的深度和清晰度信息。它包括架构(例如,Transformer 层、注意力机制)、参数大小(可训练参数的数量)等细节。目标是确保方法的基础组件得到充分理解和可重现。
-
搜索算法:这关注推理时间扩展所采用的搜索算法的解释。它评估是否详细记录了应用诸如束搜索、蒙特卡洛树搜索(MCTS)或其他策略的方法,包括参数、逐步过程和任何自定义修改。
-
RL 算法:这审查强化学习(RL)或偏好学习方法(例如,直接偏好优化)的细节。它包括奖励函数的指定、优化目标和训练动态。
-
长思维(O1 类)合成算法:这一方面评估创建或合成长思维(O1 类)数据集的过程。它包括在数据生成或选择中应用的任何特定算法、启发式方法或规则的解释。
-
训练细节:这审查训练程序的文档,包括关键超参数(例如,学习率、批量大小、优化器类型)和整体训练配置。
-
有效性验证:这评估是否严格验证了每种方法的有效性。例如,应进行消融研究、比较实验或增量分析,以量化各个技术对整体系统的贡献。这些验证确保关于方法重要性的声明有明确的实证证据支持,促进透明度和可重复性。
5.1.3 评估透明度
-
基准使用:这评估用于评估模型性能的基准选择,考虑所选基准是否适合任务和领域。
-
评估指标:这评估用于量化模型性能的指标,如 pass@k、maj@k 或 rm@k。它审查指标定义的清晰度、其与特定任务的相关性以及为解决评估的独特方面而引入的任何自定义指标。此外,它评估指标是否在所有基线中标准化和一致应用,以确保公平和无偏比较。
5.1.4 开源资源
开源资源在促进可重复性和使研究社区能够基于现有工作进行构建方面发挥着至关重要的作用。本节评估数据集、模型、代码和文档的可用性和可访问性,这些对于独立验证和进一步实验至关重要。
-
数据:这评估后训练原始数据和合成的 O1 类数据集是否公开可用。这些数据集的公开可用性显著增强了可重复性,并使研究人员能够将其应用于其他任务。
-
模型权重:这评估训练模型权重的公开发布。共享模型权重促进了复制和进一步优化工作。
-
代码:这考虑发布的代码库是否包括训练模型和评估其性能的脚本。一个完整且文档齐全的代码库对于使其他人能够重现和验证工作至关重要。
-
文档:这审查补充文档的可用性,如研究论文、技术报告或博客文章。它评估这些材料是否清楚地解释了方法、结果和基本思想,以及它们是否为研究人员和从业者提供了可操作的见解。
5.2 O1 风格技术的检查清单
5.2.1 评分框架(100 分)
我们提出了一个评分框架,通过专注于透明度,提供了一个统一的方法来评估 O1 复制努力,总分为 100 分(见表 3)。这一重点强调了可重复性和开放性在评估复制努力质量中的关键重要性。该框架评估了第 5.1 节中详细介绍的关键维度,确保对每项工作的清晰度和可访问性进行全面和公平的评估。通过系统化的检查清单方法强调透明度,该评分系统突出了构建信任和推动该领域进一步进展所需的基础方面。
表 3:O1 复制努力的技术透明度评分框架。检查清单中的每个评估点根据其透明度标准分配分数。总透明度得分总计为 100 分
5.2.2 二元评分
在该框架下,检查清单中的每个评估指标都通过一个简单的“是/否”问题进行评估,每个“是”响应为其指定的分数贡献总分。该系统的二元性质确保了评估的清晰度和一致性,因为每个指标要么完全满足,要么不满足。该方法优先考虑透明度而非实施范围。例如,如果一项工作明确承认未采用某种技术(例如,强化学习),它仍将在该指标上获得满分,因为公开记录此类细节反映了可重复性和开放性的承诺。
在为每个指标分配分数时,我们仔细权衡其在技术管道中的相对重要性。被认为对 O1 复制努力的成功和可重复性有更大影响的指标被赋予更高的分数。例如,搜索算法和长思维数据合成算法的透明度被赋予更高的分数,反映了它们在实现高质量和可重复结果中的关键作用。这种加权评分确保框架与技术过程的优先级保持一致,强调推动整体系统性能和可重复性的关键组件的文档。
5.3 比较工作
我们包括了对现有 O1 复制尝试的全面评估,从透明度和性能维度对其进行评估。我们涵盖的工作包括 Open O1(Team, )、O1-Journey(第一部分)(Qin et al., 2024)、LLaMA-O1(Team, )、k0Math(Kimi, 2024)、Skywork O1(kunlun, 2024)、Deepseek-R1-Lite(deepseek, 2024)和本工作 O1-Journey(第二部分)。这些比较提供了当前 O1 复制努力的全面视图,突出了其优势和需要进一步改进的领域。
5.3.1 排行榜
表 4 展示了各种 O1 复制努力的透明度得分,我们的工作获得了完美的透明度得分。这一结果突显了我们对开放性和可重复性的承诺,建立在我们通过 O1-Journey(第一部分)奠定的坚实基础上。O1-Journey 系列通过在所有评估维度上表现出色,包括数据可访问性、方法清晰度和开源资源可用性,树立了透明度的新基准。
6 简单蒸馏的苦涩教训
从 O1 进行知识蒸馏的显著成功为在数学推理任务中实现令人印象深刻的性能提升提供了一条诱人的捷径。尽管这种方法提供了即时的、切实的好处,但它掩盖了一系列深刻挑战,这些挑战威胁着 AI 技术和其研究社区的长期发展。在本节中,我们探讨了优先考虑轻松取胜而非基本创新的真实成本,揭示了其影响远远超出了纯粹的技术考虑。
表面吸引力 乍一看,蒸馏似乎是一个优雅的解决方案:通过直接学习 O1 的复杂推理模式,模型可以快速实现显著的性能提升,且实施相对简单。这种可访问性导致了广泛的采用,特别是在寻求快速展示与 O1 相当能力的组织中。然而,这种便利是有代价的,可能不会立即显现,但可能对该领域的长期进展造成毁灭性影响。
性能天花板 也许最直接的技术担忧在于蒸馏方法的固有局限性。通过蒸馏训练的模型不可避免地受限于其教师模型——在本例中为 O1——的能力。这创造了一个隐含的天花板效应,无论蒸馏过程多么复杂,改进都无法真正超越原始模型的能力。当考虑将能力扩展到新领域或解决以前未见过的挑战时,这一限制变得尤为成问题。
错失创新 更根本的是,广泛采用蒸馏方法使我们错失了核心技术创新的关键机会。O1 的真正突破可能不仅在于其解决复杂问题的能力,还在于其推理时间扩展和搜索优化的复杂机制。通过绕过开发这些基本能力的挑战,我们可能会在掌握这些核心技术的组织与主要依赖蒸馏的组织之间创造一个日益扩大的技术差距。随着该领域的进步,这一基础设施差距可能变得越来越难以弥合。
研究文化转变 对研究文化的影响同样令人担忧。通过蒸馏获得的“轻松取胜”已经开始将研究重点从解决基本挑战转向。这一趋势表现为对先进计算基础设施的投资减少,以及对开发复杂搜索和推理算法的重视减弱。由此产生的自我强化循环——基础设施的缺乏限制了研究可能性,进一步鼓励依赖蒸馏方法——可能会创造一个创新瓶颈,阻碍未来的突破。
基础的侵蚀 也许最令人担忧的是对领域内教育发展的影响。广泛采用蒸馏方法对未来 AI 研究人员的发展构成了重大风险。当学生和早期职业研究人员主要接触“捷径”解决方案时,他们错过了培养深度问题解决技能的关键机会。从第一性原理解决复杂技术挑战的能力——科学创新的基础——可能会逐渐被侵蚀,因为快速解决方案成为常态。我们正在目睹下一代 AI 研究人员解决问题方式的转变。与其通过与基本挑战搏斗来发展深度理解,许多人主要接受优化和提示工程的培训。这种从“它是如何工作的”到“什么有效”的转变代表了研究心态的根本变化,可能对该领域的未来创新能力产生深远影响。
第一性原理的衰减 这种对第一性原理思维的侵蚀尤其令人担忧,因为它 破坏了科学创新的基础。从零开始开发搜索算法、优化推理时间和构建推理机制的过程提供了无法通过蒸馏方法复制的宝贵学习经验。这些挑战迫使研究人员深入理解模型行为和局限性,开发系统的问题解决策略,并建立算法设计和优化的直觉。没有这些经验,我们可能会培养出一代研究人员,他们更习惯于应用现有解决方案,而不是从基本原理开发新解决方案。
学术影响 教育影响不仅限于个人技能发展。传统的学术研究环境,作为基本创新的熔炉,尤其容易受到这些影响。对快速成果的压力可能会掩盖更深入技术调查的价值,而学生可能会被劝阻追求更具挑战性、更基本的研究方向。 对性能指标而非理解的重视可能会培养出一代擅长优化但缺乏创新能力的研究人员。
表 4:各种 O1 复制努力的技术透明度得分。每一列代表一种特定方法,并为每个评估维度和指标提供单独的得分。总透明度得分按 100 分计算,反映了每种方法的开放性和可重复性
日益扩大的差距 展望未来,这些因素的累积效应描绘了一幅令人不安的图景。开发了基本搜索和推理技术的组织与主要依赖蒸馏的组织之间的技术能力差距可能变得日益难以弥合。这一差距可能导致一个研究生态系统,其中真正的突破成为少数资源丰富的组织的专属领域,而更广泛的社区则陷入通过蒸馏进行增量改进的循环。
6.1 建议
为了应对这些挑战,我们提出了几项关键建议。
日益扩大的差距 首先,组织必须保持平衡的研究组合,包括蒸馏方法和基本研究,以进行搜索和推理优化。其次,尽管蒸馏解决方案即时可用,但继续投资于先进计算基础设施仍然至关重要。第三,研究计划应优先构建搜索算法和推理优化的核心能力,同时进行性能改进。
教育改革 在教育背景下,我们必须重新设计培训未来研究人员的方法。这包括开发强调实用应用和基本理论的平衡课程,构建鼓励深度理解与性能优化的研究项目,并培养重视长期创新而非快速收益的研究文化。
这里的苦涩教训并不是说蒸馏本身有问题——它仍然是我们技术工具箱中的宝贵工具。相反,危险在于允许蒸馏的便利性使我们偏离了更困难但最终更有回报的基本创新之路。随着我们继续前进,在即时收益和长期发展之间保持这种平衡对于确保 AI 能力的持续进步和培养该领域的未来创新者至关重要。
构建智能 AI 至关重要,但培养具有第一性原理思维的人类是我们的最终使命——毕竟,他们才是 AI 未来的真正建筑师。