O1 Replication Journey: A Strategic Progress Report – Part 1——生成式AI研究O1复制之旅：战略进展报告

本文链接：https://blog.csdn.net/Together_CZ/article/details/144430600

这篇文章介绍了“O1复制之旅”，旨在透明地记录和分享对OpenAI的O1模型能力的复制过程，强调开放科学和集体进步。主要内容包括：

研究背景与目标：回应OpenAI的O1模型发布，团队致力于透明地复制其能力，解决现代AI研究中的信息孤立、延迟共享和多样贡献认可不足等问题。
方法与创新：提出“旅程学习”范式，鼓励模型学习完整的探索过程，包括试错、反思和回溯，而不仅仅是捷径。通过仅327个训练样本，旅程学习在MATH数据集上超越传统监督学习8%以上。
技术探索与实验：详细描述了从初始评估到团队组建、多次长思维构建尝试、奖励模型构建、推理树整合等过程。通过多轮迭代和定量定性评估，展示了模型改进的成果。
未来计划：包括扩展长思维整合、实验长思维扩展定律、细粒度评估、人类-AI协作、改进奖励模型、高级推理树整合、扩展训练方法等，强调持续透明和资源共享。
结论：通过开放、协作的研究方法，推动AI研究的发展，为未来的AI系统在科学发现中奠定基础。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目在这里，如下所示：

图1：2024年9月12日至10月8日我们的O1复制之旅示意图。它描绘了四个关键阶段：初步评估、多路径探索、迭代改进和当前结果。旅程以我们新颖的“旅程学习”方法告终，该方法显著优于传统的“捷径学习”方法。仅使用327个训练样本，我们的旅程学习技术在MATH500（Lightman等，2024）上分别比捷径学习高出8.4%和8.0%。

1 O1探索之旅的时间线概述

图2：该图概述了我们从OpenAI的o1技术发布到2024年10月8日的研究旅程。时间线按时间顺序跟踪我们的进展，研究活动在主图中垂直流动。在o1发布后，我们从初步评估和知识获取进展到团队组建和分析。我们的探索随后集中在四个长期思维构建尝试上。第二次尝试，即我们的核心探索，分为三个路径：过程级奖励模型、推理树的构建以及将推理树整合到长期思维中（具体节点的详细解释见表7）。这些路径在模型改进的迭代循环中汇聚，包括定量和定性评估。图的右侧展示了我们的训练管道，包括预训练、迭代训练和优化技术。实心黑色元素表示已完成的路径和里程碑，而灰色虚线元素表示计划的未来探索。这种可视化捕捉了我们在o1技术开发中的成就和未来研究方向。

2 引言

OpenAI的O1模型宣布后，人工智能研究领域发生了巨大变化，这是一个据称能够执行复杂推理任务的突破性语言模型。尽管这一宣布引发了兴奋，但AI社区发现自己处于一个特殊的位置：我们知道O1的存在及其声称的能力，但其具体实现、训练数据甚至完整输出仍然笼罩在神秘之中。这种缺乏透明性不仅阻碍了技术进步，还引发了关于AI领域科学进步开放性的重要问题。正是在这种背景下，我们的团队开始了O1复制之旅。我们的主要目标不是与OpenAI的O1实现性能对等——鉴于可用信息和资源的有限性，我们承认这是一项极具挑战性的任务。相反，我们的使命是透明地记录和分享我们的探索过程，专注于我们遇到的基本问题，发现新的科学问题，并与更广泛的AI社区分享我们的试错经验。通过这样做，我们旨在减少全球试错的总成本，并识别出O1报告成功的关键因素。

本报告的结构与传统科学出版物有显著不同，旨在解决现代AI研究中的关键挑战。在长期团队合作的AI项目时代，我们旨在通过增强透明度和实时反馈来应对信息孤立和研究人员倦怠的问题。此外，本报告代表了对AI研究方法的大胆重新构想。它不仅旨在为当前的O1复制工作提供有价值的参考，还旨在为未来的AI研究和更广泛的科学探索建立新的范式。通过这种创新方法，我们不仅努力实现技术突破，还积极塑造一个更加开放、协作和负责任的科学文化。同时，我们正在为未来能够进行科学发现的AI系统积累宝贵的学习材料，从而为下一代人工智能在科学研究中的应用奠定基础。

我们的初步探索已经对O1报告能力的潜在机制产生了有趣的见解。我们研究中的一个关键突破是提出了“旅程学习”范式，这代表了我们在模型训练方法上的根本转变。这种创新方法鼓励模型不仅学习解决方案的捷径，还学习完整的探索过程，包括试错、反思和回溯（见图3）。这种方法的强大之处在于其性能：仅使用327个训练样本且没有任何额外技巧，旅程学习在MATH数据集上比传统监督学习高出8%以上，展示了其极其强大的潜力。我们相信这是我们迄今为止成功解码的O1技术中最关键的组成部分。

通过这次旅程，我们预计将对AI研究和开发领域产生多方面的影响：（1）我们期望更深入地了解先进语言模型的基本原理，可能揭示出对O1报告能力有贡献的关键机制。（2）此外，通过倡导透明度和实时分享我们的发现，我们旨在促进一个更加开放和协作的AI研究生态系统，鼓励知识交流和集体解决问题。（3）最后，通过详细记录我们的整个旅程，包括成功与失败，我们将创建一个宝贵的数据集，用于训练未来在科学发现中的AI系统，为下一代AI驱动的研究方法奠定基础。

作为我们对开放科学的承诺的一部分，我们将在整个旅程中发布大量宝贵资源。这些包括：

(1) 我们对O1技术堆栈的详细假设，以及我们认知探索路径的综合地图。该资源提供了对我们战略思维和决策过程的洞察，贯穿整个复制尝试。(2) 从我们的试错经验中得出的见解和积极成果的集合。该汇编提供了宝贵的经验教训和意外发现，可能使更广泛的AI研究社区受益。(3) 我们认知过程的广泛文档，包括讨论演示和头脑风暴会议。这些材料提供了对我们团队协作解决问题方法和想法生成的透明视角。(4) 我们初步努力的初步结果和实验数据，以及我们定制开发的注释平台的访问权限。这些资源展示了我们的早期进展，并为从事类似工作的研究人员提供了实用工具。

3 我们为什么要创建进展报告？

在人工智能研究快速发展的背景下，传统方法和报告实践越来越不足以应对现代AI项目的复杂性和规模。本报告代表了一项开创性努力，旨在重新构想进行和交流AI研究的过程。通过提供我们复制突破性O1模型的旅程的全面、实时记录，我们旨在解决当代AI研究中的关键挑战，促进开放科学，重新定义科学交流，为AI驱动的科学发现奠定基础，并促进负责任的AI发展。接下来的内容不仅仅是对我们发现的记录，更是对AI时代科学探索和协作新范式的勇敢提议。

解决现代AI研究的挑战：人工智能技术的快速演进带来了新的研究范式，这些范式以长期、团队合作的项目为特征，通常持续六个月或更长时间。这种转变虽然有利于突破性创新，但也无意中为科学过程引入了新的挑战。长期团队合作的固有孤立性经常导致信息流向更广泛的科学社区的减少。此外，这些项目的长期性往往导致研究人员在研究旅程中延迟获得满足感，可能助长焦虑和动力下降。此外，大规模团队项目的复杂性使个人贡献的认可变得复杂，可能侵蚀传统的学术激励结构。我们的进展报告方法旨在通过增强透明度、促进实时反馈和认可，以及鼓励对长期研究计划的持续承诺来解决这些新兴挑战。
促进开放科学和集体进步：本着开放科学和集体进步的精神，本报告的主要动机是传播我们从复制O1模型的工作中获得的无价见解、资源和教训。这种方法超越了仅仅分享一个训练好的模型；它包括对我们探索过程中使用的工具、数据集和方法的全面记录。通过坦诚分享我们的挫折和失败尝试，我们旨在提供教育价值，这往往超越了单纯的成功故事。这种透明性旨在帮助其他研究人员规避潜在的陷阱，从而加速整个领域的进展。此外，通过阐明我们的思维过程和创新方法，我们希望激发社区内的创造力，促进新想法和新方法的产生。

为科学发现中的AI奠定基础：详细记录我们的科学探索过程具有深远的意义，特别是在AI能力快速发展的背景下。通过完整记录我们的探索过程，包括成功与失败，我们正在培育一个独特且宝贵的数据集。这一全面记录对于训练真正理解科学方法的AI模型至关重要，正如O1模型的成功所验证的那样。O1的成功强调了AI系统不仅要学习结果，还要学习完整的科学探索过程，包括试错。我们的报告不仅捕捉了技术细节，还包括决策依据、灵感来源和思维过程。这些“人类因素”对于训练能够进行真正科学发现的AI模型至关重要。此外，这种方法具有跨学科的价值，提供了一个研究文档和知识共享的模板，可以促进各个科学领域的创新。
促进负责任的AI发展：在我们追求技术突破的过程中，我们始终敏锐地意识到AI发展可能带来的社会影响和伦理考量。通过详细记录我们的研究过程和决策，我们建立了高标准的透明度，这对于培养公众对AI研究的信任至关重要。我们的报告不仅限于技术细节，还融入了对潜在社会影响的持续讨论和反思，从而展示了在整个技术开发过程中整合伦理考量的整体方法。这种方法有助于培养更加负责任和具有伦理意识的AI研究文化。

4 旅程学习：从“捷径学习”到新范式的转变

我们认为，大多数现有的机器学习或大型语言模型训练方法（例如，监督微调）可以被归类为**“捷径学习”。这种传统范式虽然在特定、定义明确的任务中可能有效，但在面对复杂、动态和开放式问题时表现出显著的局限性。捷径学习具有以下几个关键特征：(1) 快速结果导向：它强调在短时间内实现特定的性能指标或完成特定任务。(2) 数据依赖性强：性能提升往往依赖于增加训练数据量，而不是增强学习算法本身。(3) 泛化能力有限：在训练数据分布之外的场景中，性能可能会急剧下降。(4) 缺乏自我纠正能力：这些系统通常缺乏识别和纠正自身错误的能力。尽管捷径学习推动了AI的许多进步，但它难以产生真正智能且可靠的AI系统，以应对现实世界挑战的复杂性。随着我们追求更高级的人工智能甚至超级智能**，捷径学习的局限性变得愈发明显。因此，我们提出了一种新的范式，称为**“旅程学习”。这种创新方法不仅是一种学习方法，更是一种AI开发的新范式。旅程学习旨在使AI系统能够像人类一样，通过学习、反思、回溯和适应**不断进步，从而表现出更高水平的智能。

图4：从“捷径学习”到“旅程学习”的范式转变。一个用于推理任务的搜索树。对于数学问题解决任务，根节点代表初始问题，而叶节点是最终结论。绿色节点表示正确答案，红色节点表示错误答案。传统上，学习侧重于对直接从根到叶的捷径路径进行监督训练。然而，本研究探索了对整个探索路径的监督学习，涵盖了试错和修正过程。(c) “捷径学习”和“旅程学习”在MATH500数据集上的表现（Lightman等，2024）。基础模型是分别在Abel训练数据和PRM800K上微调的deepseek-math-7b-base模型

旅程学习代表了捷径学习的重大进步。虽然捷径学习在复杂、动态环境中往往表现不佳，但旅程学习正是为在这样的环境中蓬勃发展而设计的。它旨在创建不仅限于特定任务的AI系统，而是能够适应、推理的实体，能够处理现实世界挑战的细微差别和复杂性。这一新范式有望实现更强大、适应性更强且更人性化的AI，能够更好地服务于人类，并在各个领域进行互动。随着我们继续开发和完善旅程学习范式，我们预计它将为AI研究和应用开辟新的可能性，可能彻底改变我们对人工智能及其在社会中角色的看法。

5 背景

过程级奖励模型

过程奖励模型（PRMs）用于对大型语言模型（LLMs）的响应进行细粒度评估（Lightman等，2024；Uesato等，2022；Xia等，2024），特别是在数学推理领域。通过准确评估每一步的正确性，PRMs可以提高训练后的质量（Wang等；Sun等，2024），并通过各种搜索方法提高推理过程中的准确性（Luo等，2024；Wang等）。实现PRMs可以涉及使用具有高级提示技术的专有模型（Hao等，2024）或通过步骤级监督数据进行训练（Xia等，2024；Wang等）。后者具有挑战性，因为它需要高质量的注释数据（Xia等，2024）。这导致了使用强化学习原理的兴趣，将多步骤推理过程建模为马尔可夫决策过程（MDP），并使用蒙特卡洛树搜索（Silver等，2016）等技术在线（Chen等，2024）或离线（Wang等）估计每一步的价值。

思维链理论

思维链（CoT）提示显著提升了LLMs的推理能力。基础研究表明，提供中间推理步骤可以提高复杂任务（如算术和常识推理）的性能（Wei等，2022）。此外，理论研究揭示了CoT通过启用固有的串行计算，增强了仅解码器的Transformer，否则在低深度Transformer中缺乏这种能力（Li等）。最近的研究还表明，CoT提示通过展示常数大小的自回归Transformer可以通过CoT推导解决复杂的算术和决策任务，增强了LLMs的能力（Feng等，2024）。最近的工作强调将“错误纠正”数据整合到预训练阶段，以提高推理准确性，表明此类数据可以在不需要多轮提示的情况下提高准确性（Ye等，2024）。总体而言，这些发现强调了CoT提示在提升LLM在复杂推理任务中的性能和可访问性方面的重要作用。

内部思维

AI模型内部思维的探索随着研究人员强调模型反思其推理并改进其输出的需求而发展。早期的STaR（Zelikman等，2022）提出了通过生成解释其决策的理由来引导推理，使模型能够通过迭代改进在复杂任务中提高性能。基于此，Quiet-STaR（Zelikman等）通过训练语言模型在每个标记后生成理由，推广了这种方法，帮助模型更有效地预测和解释未来的文本。Zhang等（2024）进一步扩展了这一工作，通过在每个训练实例中嵌入反思，鼓励模型审查其决策并考虑替代推理路径。RISE（Qu等，2024）引入了一种递归内省方法，模型在检测到错误后迭代调整其响应，旨在通过多次尝试实现自我改进。这些发展表明，研究人员越来越关注使AI模型能够进行反思和自我纠正的过程，从而增强其处理更复杂推理任务的能力。

推理时间扩展

最近的研究表明，扩展推理时间可以比传统的扩展方法（如增加模型参数或训练数据量）更有效地提高模型性能（Sardana和Frankle，2023；Snell等，2024）。虽然参数扩展一直是提升模型能力的主导范式（Kaplan等，2020；Brown等，2020；Chowdhery等，2022），但它往往导致收益递减和显著的计算开销。相比之下，允许模型在推理过程中有更多时间处理和优化其输出已成为一种有前途的替代扩展维度（Madaan等，2023）。推理时间扩展具有几个优势：1）资源效率，更充分地利用现有模型容量；2）可适应的计算，为复杂任务分配更多处理时间；3）通过逐步解决问题或迭代优化提高推理能力（Yao等，2023；Cobbe等，2021）。实证研究表明，将推理时间加倍通常可以带来与显著增加模型大小相当的性能提升，但计算成本却大大降低（Snell等，2024）。一些成功的实现包括审议机制和迭代优化协议（Huang等，2022；Miao等，2023），这些协议在需要复杂推理或创造性生成的任务中显示出特别的潜力。

从搜索到思维

近年来，从传统的基于搜索的方法转向隐式推理方法显著推动了AI研究（Ruoss等，2024）。经典的系统如Deep Blue（Campbell等，2002）严重依赖显式搜索算法，如alpha-beta剪枝和蒙特卡洛树搜索，以实现超人性能（Silver等，2017）。然而，随着深度学习的出现，思维链（CoT）推理（Wei等，2022）因其通过生成中间推理步骤提高模型性能的能力而受到广泛关注。隐式思维链推理（Deng等，2023）通过利用模型的内部隐藏状态，绕过了生成显式推理步骤的需求。该方法从训练生成中间步骤的教师模型中提取知识，使学生模型通过垂直推理其内部层来更高效地解决问题。类似地，在象棋AI中，一个270M参数的Transformer模型可以在没有任何显式搜索的情况下通过监督训练在大量游戏数据上学习动作值，从而达到大师级水平（Ruoss等，2024）。这些方法突显了一个趋势，即模型越来越能够内部泛化复杂的推理和决策过程，从而减少对计算密集型搜索算法的依赖，同时在数学推理和游戏等领域保持高性能。

LLM的自我改进

LLM的自我改进方法旨在通过最小化人工干预，使模型能够从其自身输出中学习，从而提高模型性能。这些方法通常涉及在模型生成的高质量输出上进行监督微调（SFT）（Zelikman等；Li等；Wang等）或偏好优化，其中模型从其生成的响应对中学习，以查询为基准（Xu等，2024；Yuan等，2024；Pang等，2024；Wu等）。在一般指令遵循任务中，模型输出的质量通常由外部奖励系统决定——这可以是训练的奖励模型（Xu等，2024）、人类评估者（Ziegler等，2019）或通过LLM-as-a-Judge提示的LLMs（Zheng等，2023）。然而，在数学领域，输出质量主要由模型是否达到正确答案来判断（Zelikman等；Pang等，2024）。对于更细粒度的评估，数学推理任务的步骤级奖励可以由人类注释者或训练的过程奖励模型（Lightman等，2024）分配。迭代自我改进技术在一系列任务中显示出潜力，从指令遵循（Xu等，2024；Yuan等，2024）到更复杂的基于推理的挑战（Zelikman等；Pang等，2024），突显了其在推动LLM能力进一步发展方面的潜力。然而，最近的发现表明，LLM生成的文本往往表现出截断的“尾部”，这意味着生成的输出的分布缺乏人类生成内容中常见的多样性，特别是在不太常见的、异常的响应（或分布的“尾部”）中（Shumailov等，2024；Dohmatob等，2024）。这种多样性的减少可能导致模型崩溃现象，即模型收敛于更窄的行为范围，最终损害性能（Shumailov等，2024）。这一问题在语言建模（Shumailov等，2024）和数学推理的迭代偏好优化任务中已被观察到（Wu等）。为了减轻模型崩溃的风险，研究人员建议在训练过程中保持干净的人类编写数据与LLM生成内容的平衡混合（Shumailov等，2024；Dohmatob等，2024；Gerstgrasser等，2024）。这种方法有助于保持多样性，并防止模型随着时间的推移性能下降。

6 探索之旅

本节代表了我们对O1复制工作的核心内容。本节系统地展开了我们的探索过程，通过一系列关键问题，反映了我们在研究时间线图中展示的复杂路径。从使用OlympicArena（Huang等，2024）数据集对O1进行初步评估，到复杂的“长期思维构建”阶段，我们的旅程充满了多次尝试、持续迭代和对O1能力本质的深入探索。

我们在本章中提出的问题不仅反映了我们研究的进展，也体现了我们对O1认知过程本质的深刻探究。我们首先研究O1思维的结构，然后深入探讨长期思维的机制和构建——这是我们在图中展示的“长期思维构建”阶段的核心概念。我们的探索延伸到奖励模型的开发、策略推理树的构建以及将这些元素整合到连贯的长期思维中，反映了我们在研究时间线中展示的复杂互联过程网络。我们的方法，如图所示，涉及多次迭代和并行调查流。这种方法体现在我们对评估方法和训练策略的讨论中，展示了我们如何通过定量和定性评估的循环验证假设并改进技术，包括人工检查和专用分析工具。

通过围绕这些关键问题构建本章，我们不仅提供了一个清晰的技术旅程叙述，还展示了一种系统的方法来探索未知的AI技术。这种以问题为导向的格式与我们的“旅程学习”范式相一致，强调了整个学习和探索过程的重要性，而不仅仅是最终结果。随着我们逐一探讨每个问题，读者将深入了解我们的决策过程、面临的挑战以及我们开发的创新解决方案。这种对我们思维过程、尝试甚至失败的透明分享，如图所示，旨在为AI社区提供宝贵的见解，并促进该领域的集体进步。

通过本节，我们邀请读者与我们一起探索我们的旅程，不仅了解我们对O1的发现，还了解我们在有限信息的情况下复制突破性AI模型的艰巨任务。我们的旅程，充满了好奇心、坚持和创新，证明了开放、协作的AI研究在推动人工智能可能性的边界方面的力量。

Q1：O1的思维是什么样的？

表3是基于OpenAI提供的O1思维示例的详细分析创建的，其中包括解决复杂任务的八个推理步骤或“思维”实例。我们对每个示例进行了仔细检查，提取了相关特征，如标记数、行数和关键词。这些示例按不同问题类型分类，每种类型与一个难度级别相关，从简单的英语阅读理解到复杂的多步骤数学推理任务。我们的分析表明，**随着难度的增加，响应长度（标记数和行数）往往成比例增长。这表明，难度较高的问题涉及更多的推理步骤。**

除了标记和行数外，我们还进行了关键词频率分析，以识别可能表征推理过程的重复出现的术语。除了常见的连接词如“and”和“so”外，我们的分析还突出了一些出现频率较低但高度重要的关键词。例如，“consider”、“if”和“possible”等关键词频繁出现，通常标志着推理过程中的分支，即模型在考虑多个解决方案路径。这些关键词在复杂度较高的问题中出现频率更高，表明模型在这些情况下探索了不同的解决方案路径。“wait”和“Alternatively”等关键词是模型进行反思和自我纠正的关键指标。这表明模型不仅遵循线性路径，还能够在反思的基础上重新考虑和优化其方法，从而展现出更深层次的理解和更细致的推理方式。

为了理解OpenAI的O1在解决数学问题时的思维过程，我们咨询了数学系的两位博士生，他们仔细审查了OpenAI的O1在解决数学问题时所采用的推理过程。通过他们的详细分析，他们提取了反映O1如何处理和推理复杂方程的思维链。这一结构化的思维图如图5所示。经过这些探索，我们确定我们需要构建的长期思维数据应具有以下特征：

迭代问题解决：模型首先定义函数，并逐步探索相关表达式，将复杂方程分解为更简单的组成部分，反映出一种结构化和系统化的方法。
关键思维指示词：使用“Therefore”表示结论，“Alternatively”表示探索不同路径，“Wait”表示反思，“Let me compute”表示过渡到计算阶段，这些关键词突出了模型的推理阶段。
递归和反思方法：模型经常重新评估和验证中间结果，使用递归结构确保一致性，这是严格数学推理的典型特征。
假设探索：模型测试不同的假设，根据收集到的信息调整其方法，展示了其推理过程中的灵活性。
结论和验证：最终，模型解决方程并验证结果，强调在完成前验证结论的重要性。

Q2：长期思维是如何工作的？

这是一个我们认为重要的问题。然而，在我们目前的进展阶段，我们只是提出了我们的假设。我们不认为我们有足够的实证证据来验证其准确性。O1的长期思维方法的显著成功可以归因于我们在第4节中介绍的旅程学习。与传统的捷径学习不同，旅程学习允许模型探索整个决策轨迹，模仿人类的问题解决过程。这种全面的探索使O1能够考虑多条解决方案路径，从错误中学习，并理解完整的解决问题过程。通过经历正确和错误的路径，模型发展出强大的错误处理和自我纠正能力，增强了其对新挑战的适应性。这种方法促进了模型对问题领域的更深层次理解，超越了仅仅知道正确答案，而是理解为什么以及如何得出正确答案。旅程学习过程紧密模拟了人类的认知过程，包括试错、反思和调整。这使得O1能够提供详细的解决方案步骤并解释其推理过程，包括如何从错误中恢复。因此，O1的长期思维过程，基于旅程学习，不仅仅关乎延长计算时间，而是代表了一种彻底的、类人化的推理探索。这种方法使O1能够处理更复杂的问题，提供更可靠和可解释的答案，并在面对新挑战时表现出更强的适应性，从而解释了其在各种任务中的卓越表现。

Q3：如何构建长期思维？

构建包含反思和回溯等行为的长期思维是旅程学习的核心部分。为此，我们进行了一系列尝试。

尝试1：基于LLM和奖励的树搜索
根据我们在第6.1节中对长期思维的观察，其最显著的特征是在推理导致错误或无用节点时尝试反思和回溯。这类似于在推理树上进行搜索，在错误节点处回溯，直到找到正确的解决方案路径。为了实现这一点，我们需要构建一个推理树，其中根节点代表问题，其他节点代表推理步骤。从根节点到任何节点的路径表示从问题到该结论的推理过程。此外，回溯和反思必须基于错误的推理步骤，因此需要一个更细粒度的奖励模型（即过程级奖励模型）来指示树中每个节点的正确性。通过在带有过程级奖励的推理树上执行搜索算法，我们可以将错误步骤整合到思维链中，从而构建包含回溯和反思行为的长期思维。

尝试2：提出-批评循环
尝试1通过基于预定义规则在树上执行搜索来构建长期思维，但这限制了回溯和反思等行为的自由度。因此，我们允许模型选择当前的行为。我们构建了一个提出-批评循环，其中我们预定义了一些可能的行为供模型选择（即继续、回溯、反思、终止），并让模型选择行为来构建推理树。如果树未达到最终答案，模型可以接收到这一负面信号，引导其反思并纠正其方法。

尝试3：多智能体方法
在推理树上构建长期思维存在一些挑战，包括存在大量无效节点，这些节点对构建长期思维没有贡献，以及由于推理步骤不依赖于反思行为而导致的逻辑不一致问题。为了解决这些问题，我们设计了一种利用多智能体辩论的算法，其中一个智能体作为策略模型，持续进行推理，而另一个智能体作为批评模型，指示策略模型是否应继续当前推理或执行回溯等行为。两个智能体进行持续对话，当找到正确答案时，自然地构建出包含长期思维的数据集。

尝试4：完整的人类思维过程注释
当人类解决推理问题时，他们通常不会持续进行前向推理，直到解决问题或失败；相反，当他们无法继续时，他们会反思、回溯并重写推理。这种行为与长期思维的特征非常吻合。因此，我们可以忠实地记录人类解决推理任务的过程，生成高质量的长期思维数据集。

Q4：如何构建奖励模型？

利用奖励模型的第一步是定义粒度。我们不仅关注最终结果，还旨在增强LLM在反思、回溯及相关认知过程中的能力。因此，我们将评估粒度定义为步骤级。具体来说，我们使用Chern等（2023）的微调数据，通过行号使解决方案具有区分性。实现奖励模型的过程可以涉及使用开源奖励模型或专有模型。我们在PRM800K（Lightman等，2024）和MR-GSM8K（Zeng等，2023）的子集上比较了不同奖励模型的性能。我们在表4和表5中展示了结果。O1-mini在不同数据集上表现最佳。

Q5：如何构建策略推理树？

策略模型和步骤分割
构建推理树需要清晰定义推理步骤。为此，我们采用了Abel（Chern等，2023）中提出的数据格式，将数学问题解决方案转换为具有清晰步骤的形式，将答案分割为多行，每行以行号开头并包含行内的推理内容。因此，我们使用Abel数据集对DeepSeekMath-7B-Base（Shao等，2024）进行微调，得到Abel-DSMath，作为策略模型π。在此特定格式数据上微调的模型可以方便地控制单个推理步骤的生成。

奖励模型和剪枝

Q6：如何从推理树中推导出长期思维？

一旦构建了推理树，我们的目标是从树中推导出包含试错内容的长期思维。这种方法与传统方法不同，传统方法仅关注通往正确答案的捷径和有效中间步骤。在我们的框架中，推理树的每个节点都由奖励模型标注，指示该步骤是否正确，并附带推理以支持这一判断。

从推理树构建捷径
我们首先从推理树中构建捷径，仅包含正确答案和有效的中间步骤。从根节点（代表问题）开始，我们识别一条通往正确答案叶节点的路径。如果存在多个正确答案节点，将建立多条正确路径。

从推理树遍历路径
为了推导出长期思维，我们采用深度优先搜索（DFS）遍历树。这种遍历按DFS顺序构建路径，记录从根问题节点到正确答案叶节点的每一步，同时包含被标记为错误的节点的推理内容。DFS的挑战在于其探索的搜索空间巨大，导致大量试错路径可能无法产生正确解决方案。为了简化初始探索，我们引入了特定约束来管理复杂性。

最初，我们根据节点是否位于正确路径上对树中的所有节点进行标记。遍历遵循以下规则：(i) 位于正确路径上的节点：我们允许探索不在正确路径上的子节点。这意味着当DFS遇到位于正确路径上的节点时，它可能会探索一个导致错误结果的子节点。一旦该节点到达叶节点并被判定为错误，算法将回溯以继续沿正确路径遍历。(ii) 不在正确路径上的节点：遍历随机选择一个子节点进行探索，而不进行试错分支。为了进一步简化过程，我们应用了额外的约束：正确路径上的每个节点最多允许进行KK次试错——一次在错误路径上，一次在正确路径上。

这些约束确保DFS遍历集中于可管理的搜索空间子集，允许进行有意义的试错探索，同时避免对错误路径的过度探索。在未来的实验中，我们计划移除或调整这些约束，以研究试错路径长度与最终模型性能之间的关系。

从遍历路径构建长期思维
通过生成的遍历路径和附加到错误节点的推理内容，我们通过连接路径中的所有步骤构建出长期思维的草稿。该草稿包含每个错误步骤的推理内容。然而，使用此原始草稿训练模型的初步实验显示出次优性能。为了解决这个问题，我们使用GPT-4o对草稿进行修改。GPT-4o增强了思维过程的连贯性和流畅性，同时保留了所有推理步骤，包括错误步骤、反思和纠正。这种方法确保最终的长期思维不仅准确，而且自然流畅，模拟了人类解决问题过程中包含正确和错误步骤的思维过程。

Q7：如何评估我们的尝试？

除了使用特定评估指标在基准上测试准确性分数外，手动审查实际案例是评估数据和模型的关键步骤。因此，为了提供一种更直观的方式来评估模型在特定问题上的性能，我们使用Streamlit构建了一个可视化数据分析平台。2 具体来说，我们的可视化平台包括合成树及其对应的长期思维的可视化，以及训练模型的输出。此外，在可视化结果时，我们支持详细的条件过滤，例如过滤正确或错误回答的问题，或输出是否包含指示反思或犹豫的关键词（例如，“wait”）。此外，我们支持不同迭代版本的合成数据和模型输出的比较，这使得评估非常直观，并帮助我们轻松验证新数据或模型是否有效。

Q8：如何训练我们的模型？

我们的实验使用了预训练语言模型deepseck-math-7b-base。3 训练过程分为两个主要阶段：监督微调（SFT）和直接偏好学习（DPO）（Rafailov等，2024）。

阶段1：监督微调（SFT）
SFT过程包括两个阶段：1. 捷径学习：在此初始阶段，我们专注于使用仅包含正确中间步骤和最终正确答案的响应进行微调。我们对Deepseck-math-7b-base（Shao等，2024）在Abel数据集（Chern等，2023）和PRM800K数据集（Lightman等，2024）上进行微调。对于PRM800K中的每个问题，我们使用一个正确的逐步解决方案，丢弃未达到最终答案的响应。这产生了总共6,998个微调样本。在此阶段，我们在每个数据集上进行一轮微调，主要目的是使模型熟悉所需的响应格式。2. 旅程学习：在第二阶段，我们进一步使用我们构建的长期思维对初始阶段SFT模型进行微调，包含327个样本。此阶段旨在增强模型检测错误、整合反思、执行纠正和进行回溯的能力。通过在包含错误尝试的长期思维上进行训练，我们旨在使模型对较长推理链中的复杂性有更深入的理解。作为对比，我们还在从同一推理树生成的捷径上对模型进行微调，同样包含327个样本。长期思维SFT和捷径SFT设置均在这些327个样本上训练了3轮。

阶段2：直接偏好学习（DPO）
在此阶段，我们使用核采样（top_p=0.95，温度T=0.7）从MATH Train数据集（PRM800k的一个重新划分数据集，包含12,000个样本）生成每个问题的20个响应。这些响应根据最终答案的正确性分为正面和负面响应。我们从这些响应中随机选择5个正面响应和5个负面响应，创建5个偏好对。然后，我们使用这些偏好对和DPO损失训练模型，使其从正确和错误答案的比较中学习。

我们的实验结果如表6所示。所有结果均在MATH测试集上进行测试，使用PRM800K的一个重新划分子集，包含500个样本。结果显示，旅程学习相比捷径学习带来了显著的提升，deepseek-sft-abel和deepseek-sft-prm800k模型分别提升了+8.4和+8.0，证明了我们提出的旅程学习方法的有效性。然而，DPO带来的改进较为有限，我们承认这是一个初步的探索性结果。在未来的实验中，我们计划进一步探索偏好学习和强化学习技术，包括迭代自我改进、整合过程级奖励模型，以及从结果级DPO过渡到过程级DPO/RL方法。

Q9：什么是有效的人机协作注释策略？

我们开发了一个人机协作管道，旨在为从MATH数据集中提取的问题生成高质量的长期推理数据。该管道能够将人类注释的几行解决方案扩展为数千个标记，遵循我们的“旅程学习”范式。在构建管道的过程中，我们确定了高效注释的关键技术，包括：

完整的思维过程
注释者不必详细记录脑海中的每一个想法，但必须记录每一次尝试、反思、联想和纠正。这些思维路径在日常思考中可能不会被明确表达或意识到。然而，捕捉思维的转变及其背后的原因至关重要。这种导航和理解认知过渡的能力是大型语言模型必须从我们的数据中学习的核心技能。

对常识的额外解释
人类通常会省略可以从上下文中推断的信息，例如对先前提到的公式的引用或对众所周知理论的应用。然而，当大型语言模型尝试解释人类注释时，这可能导致幻觉。因此，高质量的数据必须包含对常识知识的明确解释，以防止LLM的误解。

通过上述基本要素，简洁而精确的注释数据完全由人类努力生成。下一阶段涉及AI驱动的流程。通过设计复杂的提示，我们通过LLM在以下方面实现数据增强：

增强数据粒度
提示强调将问题解决过程分解为更细小的步骤。通过将过程分解为细粒度的、易于消化的部分，LLM更容易掌握并在继续下一步之前内化每个概念。这确保了每个阶段都有更深入的理解。
逐步推理
LLM需要频繁暂停，反思已知信息或澄清下一步应添加的内容，以指导推理。在推理中暂停模仿学生自然思考问题的方式，帮助他们保持参与并与推理过程保持联系，而不是被动地遵循指令。
学生-探索者视角
LLM被鼓励使用一种探索的语气，仿佛他们第一次解决问题。这激发了好奇心，鼓励学生批判性思考，使他们感觉自己是学习过程的一部分，而不仅仅是接收信息。

7 研究探索的详细事件解释

表7：我们研究探索的详细事件解释。节点和简短描述对应于图2中的节点，而解释和资源则详细阐述了节点的目的以及所需的相关资源。

7 研究探索的详细事件解释

节点	简短描述	解释	资源
1	OpenAI O1 发布	OpenAI 发布了其最新的推理模型 O1	OpenAI O1 示例
2	评估 O1（OlympicArena, Gaskao Math）	在高分竞赛题目上评估 O1 的性能	OlympicArena, Gaskao, O1 API
3	知识获取	了解 OpenAI O1 的可能技术路线
4	O1 技术讨论	讨论 O1 的技术路线并确定研究目标
5	团队组建	召集相关学生组成团队
6	O1 思维分析与模式设计	1. 分析 O1 长思维的属性/模式：长思维结构，各部分功能 2. 探索如何构建长思维训练数据：使用 MATH 数据集
7	尝试1：提出-批评循环	多代理系统，其中提出者建议可能的推理步骤，批评者指出问题并提出方向	提出者, 批评者, 循环算法
8	尝试2：基于 LLM 和奖励的树搜索	使用策略模型和奖励模型构建推理问题的推理树，每个节点代表一个步骤，并使用推理树构建长思维	策略模型, 奖励模型, 长思维构建算法
9	尝试3：多代理方法	使用多代理辩论系统解决推理问题，并将包括反思和回溯的推理路径整合到长思维数据中	策略模型, 奖励模型, 算法
10	尝试4：完整的人类思维过程注释	人类专家创建少量高质量的长思维数据	人类
11	过程级奖励模型	用于对推理树中的每个推理步骤进行评分，提供理由	奖励模型
12	构建推理树	构建推理树，每个节点代表一个推理步骤	策略模型, 搜索算法
13	将推理树整合到长思维中	使用推理树构建包括回溯和反思的长思维数据，而不是直接向前运行的链	推理树, 长思维构建算法
14	教师-学生激励驱动的数据构建	学生（策略模型）持续向前推理，教师（批评模型）提供反馈，指出错误，并帮助进行回溯和反思	策略模型, 奖励模型, 算法
15	奖励与批评模型设置	奖励模型或批评模型的选择包括使用开源模型 MathShepherd 对步骤进行 0-1 评分，或使用强大的闭源模型如 O1-mini 直接指示步骤的正确性	MathShepherd, O1-mini
16	在线策略采样与搜索树	在线设置，使用目标模型作为策略模型提供推理步骤。为了加快构建速度，使用奖励模型和相应的算法在构建过程中对树进行剪枝	策略模型, 奖励模型, Math 训练集
17	离线策略 PRM800K 树	OpenAI 正式发布了 PRM800K 数据集，该数据集包含推理树和过程级奖励，用于构建相应的推理树。由于推理步骤由人类提供而不是目标模型，因此设置为离线策略	PRM800K 数据集
18	第一次构建推理树	构建第一代推理树。使用 DeepSeekMath-Base-7B 在 Abel 数据上训练策略模型 M1，并使用 MathShepherd 提供过程级奖励模型。使用 Beam Search 算法生成和剪枝树	策略模型: DeepSeekMath-7B + Abel; 奖励模型: Unsupervised-Mitreal-7B
19	第一次长思维整合	使用 PRM800K 数据合成长思维训练数据	推理树, 长思维构建算法
20	评估	评估合成的长思维	评估方法, 长思维数据
21	训练	使用长思维训练模型	长思维, 模型
22	预训练	使用大量数据预训练模型	大量长思维数据, 模型
23	后训练	在预训练模型上使用长思维进行微调	长思维数据, 预训练模型
24	迭代训练	迭代训练以改进模型	微调模型
25	偏好学习	偏好学习，使具有反思和回溯能力的模型自动选择更有效的回答策略	偏好数据; 微调模型
26	监督学习	直接使用长思维数据训练模型	SFT 模型; 数据
27	强化学习	强化学习，如 PPO	预训练模型; 长思维数据
28	DPO	直接偏好优化，一种稳定的偏好学习算法	SFT 模型; 奖励模型
29	分析工具	用于可视化长思维数据和分析模型输出的平台	Streamlit
30	人工检查	人类专家分析和评估长思维数据和模型输出	人类; 长思维数据; 模型响应
31	第二次长思维整合	使用构建的第二代推理树合成长思维训练数据	第二代推理树; 长思维构建算法
32	第二次构建推理树	构建第二代推理树，替换奖励模型为 O1-mini，直接指示步骤的正确性并进行剪枝，提供更准确的奖励	策略模型: DeepSeekMath-7B + Abel; 奖励模型: O1-mini
33	细粒度、以思维为中心的评估	进行更细粒度的评估，以增强长思维中各种动作的有效性	长思维数据
34	长思维扩展定律实验	实验长思维在训练时间和推理时间上的扩展定律	大量长思维数据的各种形式
35	人类-AI 协作生成高质量思维	使用人类生成的高质量长思维数据	人类
36	第三次长思维整合	合成第三代长思维数据，进一步提高数量和质量	大量推理树; 构建算法

8 未来计划

随着我们的 O1 复制之旅不断发展，我们的未来计划是基于迄今为止获得的见解和遇到的挑战而制定的。从我们的研究时间线和取得的进展中，我们确定了几个关键领域，以供未来的探索和发展：

扩展长思维整合：在我们成功进行长思维整合的迭代基础上，我们计划进行第三轮整合，如我们的研究图表所示。这将涉及扩展我们的流程，以处理更复杂和多样化的思维模式，可能会揭示 O1 能力的新维度。
长思维扩展定律实验：我们的图表中强调了计划进行的长思维扩展定律实验。这一研究流旨在了解随着数据、模型规模和计算资源的增加，模型的性能和能力如何扩展。这些见解对于优化我们的方法并可能发现高级 AI 系统的基本原理至关重要。
细粒度、以思维为中心的评估：我们计划开发和实施更复杂的评估方法，专注于细粒度、以思维为中心的评估。这种方法，如我们的研究时间线所示，将使我们能够更准确地衡量生成长思维的质量和连贯性，提供对模型推理能力的更深入见解。
人类-AI 协作生成高质量思维：未来计划的一个关键组成部分，如图表所示，是探索和增强人类-AI 协作以生成高质量思维。这涉及开发接口和方法，利用人类智能和 AI 能力的优势，可能会在混合智能系统方面取得突破。
持续改进奖励和批评模型：在我们现有的过程级奖励模型和批评模型设置的基础上，我们旨在进一步完善这些系统。这一持续过程将涉及迭代改进，以更好地捕捉人类推理和问题解决策略的细微差别。
高级推理树整合：我们计划探索更复杂的方法，从推理树中推导和整合长思维。这将涉及开发高级算法，用于遍历和合成这些复杂结构中的信息。
扩展训练方法：我们的未来计划包括进一步实验和完善我们的训练管道。这包括对我们的预训练、迭代训练、强化学习、偏好学习和 DPO（直接偏好优化）阶段的改进，如我们的研究图表所示。
持续透明和资源共享：本着我们开放科学承诺的精神，我们将继续分享我们在旅程中开发的资源、见解和工具。这一持续实践，如我们的图表中的资源共享图标所示，旨在促进协作并加速更广泛的 AI 研究社区的进展。
多代理方法的探索：在我们最初的多代理系统尝试基础上，我们计划深入研究这一领域，可能会发现建模复杂推理和决策过程的新方法。
改进分析工具：我们旨在进一步开发和增强我们的分析工具，如我们的研究时间线所示。这些工具对于解释模型输出、跟踪进展和指导未来研究方向至关重要。

通过追求这些方向，我们不仅旨在推进我们对 O1 能力的理解和复制，还旨在推动 AI 研究方法的边界。我们的未来计划反映了我们对旅程学习范式的承诺，强调持续改进、透明探索和协作进步。随着我们继续前进，我们将保持适应性，随时准备根据我们对 O1 和高级 AI 系统的理解不断调整我们的计划。通过这一持续的旅程，我们希望为开发更强大、可解释和符合伦理的 AI 系统做出重大贡献。

致谢

我们衷心感谢上海创新研究院为我们提供了卓越的讨论和辩论环境，为我们的项目进展奠定了坚实的基础。我们深感对所有合著者的感激之情，特别感谢来自 GAIR 的学生们。你们在国庆假期中牺牲时间，致力于这一开创性工作，你们的奉献精神和辛勤工作使项目的进展成为可能。没有你们的坚定承诺和努力，这一进展是不可能实现的。