作者 | 黄浴 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/26456345675
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『大模型』技术交流群
本文只做学术分享,如有侵权,联系删文
25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。
要实现人类水平的智能,需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策,但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大语言模型 (LLM) 擅长快速决策,但缺乏复杂推理的深度,因为它们尚未完全接受真正系统 2 思维的逐步分析特征。最近,像 OpenAI 的 o1/o3 和 DeepSeek 的 R1 这样的推理 LLM 在数学和编码等领域表现出专家级的表现,与系统 2 的深思熟虑推理非常相似,并展示类似人类的认知能力。
本概述首先简要概述基础 LLM 的进展和系统 2 技术的早期发展,探讨它们的结合如何为推理 LLM 铺平道路。其讨论如何构建推理 LLM,分析其特性、实现高级推理的核心方法以及各种推理 LLM 的演变。此外,还概推理基准,对代表性推理 LLM 的性能进行了深入比较。
要达到人类水平的智能,需要完善从系统 1 到系统 2 推理的过渡 [1]–[5]。双-系统理论认为,人类认知通过两种模式运作:系统 1 快速、自动、直观,能够以最小的努力做出快速决策;系统 2 速度较慢,更具分析性和深思熟虑 [6],[7]。虽然系统 1 对于日常任务很有效,但它容易产生认知偏差,尤其是在复杂或不确定的情况下,从而导致判断错误。相比之下,系统 2 依赖于逻辑推理和系统思维,从而做出更准确、更合理的决策 [8]–[11]。通过减轻系统 1 的偏差,系统 2 提供一种更精细的问题解决方法 [12]–[15]。
基础大语言模型 (LLM)1 的开发标志着人工智能 (AI) 的一个重要里程碑。 GPT-4o [16] 和 DeepSeek-v3 [17] 等模型在文本生成、语言翻译和各种感知任务中表现出色 [18]–[28]。这些模型在大量数据集上进行训练并采用高级算法,在理解和生成类似人类的反应方面表现出色。然而,基础 LLM 的运作方式类似于系统 1 推理,依赖于快速、启发式驱动的决策。虽然它们在提供快速响应方面表现异常出色,但在需要深度、逻辑分析和复杂推理任务精确性的场景中,它们往往达不到要求。这种限制在涉及复杂问题解决、逻辑分析或细微理解的情况下尤其明显,因为这些模型尚未达到人类的认知能力。
相比之下,推理 LLM 代表语言模型演变的重大进步。 OpenAI 的 o1/o3 [29]、[30] 和 DeepSeek 的 R1 [31] 等模型旨在模拟与系统 2 思维相关的较慢、更慎重的推理。与基础 LLM 不同,推理 LLM 配备逐步处理信息的机制,从而使其能够做出更准确、更合理的决策。从快速思考、直觉过程转变为更有条理、推理驱动的模型,推理 LLM 能够以专家级表现处理复杂任务,如高等数学 [32]–[37]、逻辑推理 [38]–[44] 和多模态推理 [45]–[47],展现出类似人类的认知能力。因此,人们越来越多地认为推理 LLM 能够实现曾经被认为超出 AI 能力范围任务所需的深度逻辑思维。如图显示推理 LLM 的近期时间表。

本综述全面概述推理 LLM 开发中涉及的关键概念、方法和挑战,其结构如图所示:

推理 LLMs 的基础如下。
基础 LLM
随着 2018-2019 年预训练 Transformers [18] 的引入,基础 LLM 的发展取得重大进展,尤其是通过 BERT [19] 和 GPT [21]。这些模型利用对大量文本语料库的无监督预训练,然后针对特定任务的应用程序进行微调。这种方法使他们能够在专注于情绪分析、实体识别和问答等任务之前发展广泛的语言理解。BERT 的双向上下文处理提高单词理解能力,而 GPT 凭借其单向设计在文本生成方面表现出色。
2019 年发布的 GPT-2 [22] 拥有 15 亿个参数,标志着生成性能的重大飞跃,尽管它也引发道德问题。 GPT-3 [23] 拥有 1750 亿个参数,进一步展示无监督预训练的强大功能,在少样本学习中表现出色,并在各种 NLP 任务中表现出色。在随后的几年中,出现 CLIP [60] 和 DALL-E [61] 等多模态模型,它们集成文本和视觉输入。这些模型实现新的任务,例如从文本生成图像,并增强人机交互。
到 2023-2024 年,GPT-4/4o [16]、[62]、LLaMA [25] 和 LLaVA [27] 等模型展示推理、上下文理解和多模态推理方面的先进能力,可处理文本和图像 [63]–[65]。 DeepSeek-V3 [17] 采用 671B 混合专家架构 [66]–[68],在关键基准测试中优于其他几种 LLM,同时在效率和处理速度方面也有显著提升。基础 LLM 的发展彻底改变人工智能,使语言理解、问题解决和人机协作方面能够实现更复杂的应用。
摘要:基础 LLM 的发展已经从 BERT 等预训练 Transformer 发展到 GPT-4 等多模态模型,增强语言理解、文本生成和图像处理。这一进步带来人工智能的重大突破,提高语言理解、问题解决和人机交互能力。基于深度学习的进步 [18]、[69]–[83],基础 LLM 可以从大量文本或多模态数据中学习广泛的世界知识和语义关系。这使得它们能够展现出上下文学习 (ICL) [84]、[85]、提示工程 [86]、[87] 和思维链 (CoT) 推理 [2] 等新兴能力,从而显著提高它们的适应性和创造性解决问题的能力。
尽管取得这些进展,基础 LLM 的运作方式与系统-1 推理类似,依赖于快速、启发式驱动的决策,缺乏系统-2 的逐步分析特征。然而,它们的发展为未来的推理 LLM 奠定坚实的基础——尤其是与早期的系统-2 技术相结合时。这种结合为更通用、更灵活、更像人类的推理模型铺平道路。
符号逻辑系统
符号逻辑系统标志着人工智能的早期阶段,利用规则和逻辑原理来表示知识并得出结论 [88],[89]。它们在结构化领域特别有效,在这些领域中,形式逻辑可以确保准确性。
Prolog 是一种基于一阶逻辑的逻辑编程语言,允许用户定义事实、规则并通过查询进行推理。它在符号推理系统中起着关键作用,尤其是在 NLP 和专家系统中 [90]–[92]。基于逻辑的系统(如 Prolog)采用命题和谓词逻辑进行形式推理 [93],[94]。从 20 世纪 60 年代到 20 世纪 80 年代初,这种方法主导人工智能,IBM 的 LISP [95] 等系统用于符号计算,解析定理证明器 [96] 用于自动推理。 20 世纪 70 年代,马文·明斯基 (Marvin Minsky) 提出框架理论,将知识组织成结构化框架,对专家系统和认知科学都产生影响 [97]。
摘要:符号逻辑系统是早期人工智能发展的关键里程碑。它们基于形式逻辑,在解决定义明确的问题方面表现出色,尤其是在结构化环境中。然而,它们也暴露僵化的规则系统的局限性。尽管存在这些限制,符号逻辑仍然是人工智能进步的基础。
推理 LLM 的最新进展,通过复杂的思维架构(称为宏动作框架)大大增强对类人系统-2 认知过程的模拟。通过将符号模板或规则与基础 LLMs 相结合,宏动作显著提高其推理能力。将宏动作融入基础 LLMs 已经改变它们处理复杂推理任务的能力,因为分层规划允许模型在深入研究特定问题细节之前做出高级决策,反映符号逻辑的结构化方法。
蒙特卡洛树搜索
MCTS 是一种基于模拟的决策和规划搜索算法 [98]。它通过四个步骤构建搜索树:选择,使用 UCB1 公式选择优先级最高的子节点;扩展添加新节点,模拟执行随机滚动以评估它们,反向传播更新节点统计信息。MCTS 已广泛应用于围棋等棋盘游戏中的策略优化 [99] 和机器人路径规划等任务,它可以帮助机器人有效地导航动态环境 [100]。
摘要:MCTS 在推理 LLM 的开发中发挥至关重要的作用,特别是在结构搜索中。通过模拟潜在的未来推理路径和反向传播估计的奖励,MCTS 可帮助基础 LLM 有效地识别最有希望的高奖励路径。这个过程反映类似人类的规划,在采取行动之前会考虑决策的未来后果。通过动态探索多种推理轨迹,MCTS 可使模型避免陷入次优路径,从而更轻松地驾驭复杂的决策空间。这种集成显著增强 LLM 处理复杂和动态推理问题的能力,例如需要长期规划或多步逻辑推理的问题。它使 LLM 能够做出更具战略性和更明智的决策,从而提高其在涉及细微推理和战略探索任务中的整体表现。
强化学习
RL 是一种机器学习,其中智体通过与环境交互并以奖励的形式接收反馈来学习做出决策,旨在随着时间的推移最大化累积奖励 [101]。RL 的早期突破,例如 Q-学习 [102] 和 DQN [103],通过使用深度神经网络 (DNN) [104] 处理复杂的状态空间,彻底改变该领域。这些方法为将 RL 扩展到现实世界的任务铺平道路,而传统的表格方法则无法满足这些任务的需要。深度 RL 的出现标志着向前迈出重要一步,它将深度学习与 RL 的强大功能结合起来,以处理高维输入,例如图像和非结构化数据。
深度 RL 的一个里程碑式成就是 AlphaGo,它通过自我对弈在复杂的围棋游戏中击败世界冠军,展示 RL 的潜力 [105]。这一成功凸显深度 RL 在具有巨大、连续动作空间和不确定性的环境中蓬勃发展的能力。在此基础上,AlphaZero 通过自对弈、MCTS 和 DNN 掌握多种棋盘游戏(国际象棋、围棋和将棋),从而改进该方法 [106]。AlphaZero 能够完全从头开始学习,无需人类的先验知识,展示强化学习在需要长期战略和规划的环境中的能力。
AlphaStar 通过在实时战略游戏《星际争霸 II》中表现出色,进一步拓展深度强化学习的界限。与棋盘游戏不同,《星际争霸 II》呈现动态、部分可观察的环境,需要多步骤、实时决策 [107]。AlphaStar 在这一领域的成功证明深度强化学习能够适应需要战略规划和战术执行的复杂决策场景。强化学习和深度强化学习的这些进步极大地扩展人工智能的潜力,从定义明确的静态环境转变为需要持续学习和适应的动态复杂环境。
摘要:深度强化学习已被证明在解决复杂的决策任务方面非常有效。AlphaGo 通过自我对弈学习策略并击败围棋世界冠军,就是一个例证。这种自我对弈概念为推理 LLM 中的自我改进技术奠定基础,两者都依赖于持续反馈和调整来优化策略。
在强化学习中,奖励塑造至关重要,尤其是对于多步骤推理任务 [108]。通过调整奖励信号以在中间步骤中提供更细粒度的反馈,它可以帮助智体导航复杂的决策路径。这个概念启发奖励建模的发展,特别是推理 LLM 中的过程奖励模型。该模型提供分步监督来识别和纠正推理过程中的错误。通过模仿人类推理,过程奖励模型可确保更稳健、更可解释的结果,尤其是在数学问题解决和代码生成等任务中,其中分步评估至关重要。
此外,强化学习本身也是推理 LLM 的强大工具。通过奖励机制,强化学习可以引导基础 LLM 找到最优解,尤其是在动态推理问题中。它的简单性和效率使强化学习在训练和优化推理 LLM 方面具有不可估量的价值,增强 AI 模型的智能性和自我进化能力。正如 DeepSeek-R1 [31] 所展示的那样,强化学习的集成已导致推理 LLM 取得重大进展,提供更灵活、更高效的解决方案。
推理 LLM 的蓝图如下。
如图显示传统推理模型和推理 LLM 的全面比较:

推理 LLM 的特征分析
输出行为视角
探索和规划结构:最近的实证研究表明,推理 LLM 在其输出结构中表现出强烈的探索性行为倾向,尤其是与主要依赖传统 CoT 推理方法的 WizardMath [109] 和 DeepSeekMath [110] 等模型相比时。这种探索性行为在制定新假设和寻求替代解决方案路径方面显而易见。[49] 的研究表明,慢思考模型参与潜在的生成过程,在预测后续 token 时尤其明显。[31] 支持这一说法,它观察到在 RL 规模训练期间自然会出现类似的行为。此外,Quiet-STaR 框架 [111] 引入一个辅助预训练阶段,专注于下一个 token 预测,强调内部审议和探索机制在内容生成之前的关键作用。总的来说,这些发现强调高级 LLM 中推理过程的复杂性和动态性,强调其操作框架内探索与结构化推理之间的相互作用。
验证和检查结构:对 OpenAI 的 o1 [29] 和 o3 [30] 模型的分析表明,它们的推理框架既包含长期战略规划的宏观层面行动,也包含微观层面行动,包括“等待”、“稍等”、“或者”和“让我们暂停一下”。这些微观操作有助于细致的验证和迭代检查过程,确保任务执行的准确性。这种双层方法强调模型在总体目标和细粒度、面向细节操作之间取得平衡的能力,从而增强模型的整体功能和可靠性。为了模仿这一特性,Marco-o1 [112] 在构建 Long-CoT 的 MCTS 过程中,为每个树节点分配“等一下!我可能犯了一些错误!我需要从头开始重新思考”的状态,从而促进 Long-CoT 的反思性。Huatuo-o1 [113] 采用多智体框架来解决验证过程中生成错误 CoT 的问题。这是通过结合带有“回溯”和“纠正”功能的提示来实现的,这使得纠正过程成为可能。
更长的推理长度和时间:最近的研究 [49]–[52]、[114] 表明,推理 LLM 通常会生成超过 2000 个 tokens 的输出来解决复杂的编码和数学问题。然而,这种延长的输出长度有时会导致过度思考,模型会在问题上花费过多的时间,而不一定能改进解决方案。研究 [49] 强调,虽然自回归生成和经典 CoT 可以有效解决较简单的问题,但它们在处理更复杂的任务时会遇到困难。研究 [115]、[116] 表明,在多模态领域,许多问题需要仔细观察、比较和思考。此外,Search-o1 [117] 表明,慢思考机制在需要外部知识或出现潜知识冲突的领域特别有益。在医疗场景中,复杂问题(例如需要测试-时间规模化技术的问题)表现出显着的改进 [52]。
过于谨慎和简单的问题陷阱:目前,推理 LLM 在竞争级数学 [31]、[54]、[118]、[119]、复杂编码 [120]、医学问答 [52]、[113] 和多语言翻译 [112]、[121] 等领域表现出色。这些场景需要模型对问题进行细粒度分析,并根据给定的条件执行仔细的逻辑推理。有趣的是,即使对于像“2 + 3 =?”这样的简单问题,推理LLM也会表现出过度自信或不确定性。最近的研究[122]指出,o1 类模型倾向于为较简单的数学问题生成多轮解决方案,通常会探索不必要的路径。这种行为与较简单问题缺乏多样化的探索性行动形成鲜明对比,表明模型的推理过程可能效率低下。
训练动态视角
惊人的数据效率:与专注于扩展具有均匀分布难度级别的指令集的传统方法不同,研究[52],[54]表明,构建以难样本为重点的慢思考 CoT 数据集,可以在医学和数学等领域实现更好的泛化。这种方法不同于收集多样化和均匀分布指令数据集的传统做法。
稀疏训练方法:与传统观点相反,有效推理 LLM 的开发不需要大量数据集或密集的奖励信号。例如,STILL2 [51] 仅使用 5,000 个蒸馏样本就表现出令人印象深刻的性能,而 Sky-T1 [119] 仅使用 17,000 个 LongCoT 样本就实现了与 QwQ [118] 相当的性能。同样,RedStar [54] 仅使用 4,000 个核心 LongCoT 样本在文本和多模态任务中都取得了出色的结果。与简单的 CoT 相比,慢思考监督微调 (SFT) 数据表现出出色的样本效率,通常仅使用 1/100 的样本量就能提供相当的结果。此外,研究 [123] 强调在线 RL 规模化算法的巨大训练潜力,表明非密集 RL 监督甚至基于规则的奖励结构,足以实现高性能。
参数特征:以 LongCoT 方法为代表的慢速思维,训练 LLM 会导致不同层之间的梯度范数相对均匀。相比之下,以简化的 CoT 方法为代表的快速思维,会在较早的层中产生较大的梯度幅度,同时不同层之间的梯度范数存在显著差异。经验证据表明,较大的模型(尤其是参数超过 300 亿的模型)更适合推理 LLM 训练,因为它们具有增强的复杂推理能力。此外,RedStar [54] 进行的实验表明,数据规模化的好处因模型大小而异,规模化效果在较大的模型中更明显、更有效。Deepseek-R1 的研究 [31] 支持这一发现,该研究表明,6700 亿个参数模型实现的性能指标与 o1 基准非常接近,凸显大型架构在高级推理任务中的可规模化优势。
核心方法
驱动推理 LLM 高级推理能力的核心方法如图所示,包括结构搜索、奖励建模、自我改进、宏动作和强化微调。

结构搜索
推理 LLM 旨在通过模拟人类推理的深思熟虑性质,在解决复杂问题时实现高精度和深度。然而,尽管最近取得进展,但当前的基础 LLM 在处理复杂的推理任务时仍面临固有的局限性。这些限制源于它们缺乏模拟环境状态的内部世界模型、无法预测推理路径的长期结果以及无法根据未来状态或奖励迭代地改进推理步骤 [8]。因此,这些缺点阻碍基础 LLM 在广阔的推理空间中有效平衡探索和利用,从而给需要多步骤推理的任务(例如复杂数学、逻辑推理或战略决策)带来挑战 [139]。
MCTS 是一种强大的搜索和优化算法,它通过提供一个结构化框架来系统地探索和评估推理路径,从而有效地解决这些挑战。它通过构建推理树来运行,其中每个节点代表一个推理状态,动作通过考虑潜在的后续步骤来扩展树。通过模拟未来状态和估计奖励的迭代反向传播,MCTS 允许基础 LLM 有效地识别高奖励的推理路径,从而反映人类的规划过程。这种方法符合推理 LLM 的核心原则,其中彻底的分析和深思熟虑的探索对于生成合理的输出至关重要。最近的方法,如 RAP [14],通过将 MCTS 与世界模型相结合,增强基础 LLM,使系统能够迭代地改进中间推理步骤并改善未来预测。同样,思维森林(Forest-of-Thought) [125] 利用 MCTS 动态探索多种推理轨迹,重新审视有缺陷的路径并改进结果。
MCTS 在推理任务中的应用已不仅限于传统的问题解决,还扩展到高度专业化的领域。例如,SRA-MCTS [134] 和 MC-NEST [133] 等框架展示 MCTS 在解决代码生成和数学推理等技术挑战方面的实用性,其中中间步骤经过迭代评估和改进。在教学协调等领域,SPaR [127] 和 Marco-o1 [112] 等框架利用 MCTS 来改进响应并使推理轨迹与人类偏好或期望结果保持一致。此外,像 HuatuoGPT-o1 [113] 这样的针对特定任务的实现强调 MCTS 在高度专业化领域(如医学推理)中的关键作用,因为在这些领域中准确性和鲁棒性至关重要。
MCTS 还通过结合动态重访、批评和改进推理步骤的机制,使模型能够超越单次推理方法(如 CoT 或思维树)[131]、[140]。这种迭代能力对于处理具有巨大决策空间的任务或需要长期规划的任务至关重要,因为早期的决策会显著影响最终结果。通过允许 LLM 模拟、评估和改进多种推理路径,MCTS 引入传统方法所缺乏的适应性和战略探索水平。正如 AlphaZero 类树搜索 [124] 和 Search-o1 [117] 所示,MCTS 不仅使推理 LLM 能够在特定任务上取得更好的性能,而且还能在不同领域表现出增强的泛化能力。
MCTS 与 LLM 的集成取决于定义动作和奖励,以指导推理路径探索和评估质量。如表所示,先前工作的动作分为四类:
1)推理步骤作为节点:动作表示中间推理步骤或决策,例如选择规则、应用转换或生成子问题 [14]、[124]、[125]、[139]。
2)token 级决策:动作涉及生成token或序列(例如下一个单词、短语或代码片段)[126]–[128]、[141]。
3)任务特定结构:动作是特定域的,例如在积木世界中移动积木、在几何问题解决中构建几何或在任务规划中修改工作流程[129],[130],[142]。
4)自我纠正和探索:行动侧重于重新访问、改进或回溯以改进先前的推理步骤[131],[132],[143]。

此外,如表所示,将奖励设计分为五类:
1)基于结果的奖励:奖励侧重于最终结果或解决方案的正确性或有效性,包括推理路径或任务成功的验证[133],[139],[142]。
2)分步评估:根据每个步骤的质量或其对最终结果的贡献,在中间步骤分配奖励[14],[124],[134]。
3)自我评估机制:奖励依赖于模型自身的信心或自我评估(例如,似然、下一个词概率或置信度得分)[127],[128],[135]。
4)特定域的标准:奖励针对特定任务定制,例如几何的对称性和复杂性或文本生成中与人类偏好的一致性[130],[136],[142]。
迭代偏好学习:奖励来自对多个解决方案或推理路径的比较,从而动态地指导学习 [112]、[137]、[138]。
摘要:尽管基于结构搜索(即 MCTS)的推理 LLM 具有诸多优势,但由于需要进行大量模拟,因此通常会产生大量的计算开销。这使得它们不太适合需要实时决策或在资源受限情况下运行的任务 [144]。此外,MCTS 的有效性高度依赖于精心设计的奖励机制和动作定义,而这些机制和动作定义在不同领域可能会有很大差异,因此对其通用性提出挑战 [145]。
奖励建模
两种主要的训练范式用于处理多步骤推理任务:结果监督和过程监督。结果监督强调在更高粒度上最终答案的正确性,由此产生的模型称为结果奖励模型 (ORM) [32]、[158]。相比之下,过程监督为解决方案轨迹提供分步标签,评估每个推理步骤的质量。由此产生的模型称为过程奖励模型 (PRM) [37]、[159]、[160]。ORM 和 PRM 之间的主要区别如图所示。

PRM 在复杂推理任务中具有显着优势 [147]、[161],主要原因有几个。首先,它提供细粒度、分步监督,允许识别解决方案路径中的特定错误。此功能对于 RL 和自动纠错尤其有价值。其次,PRM 与人类推理行为非常相似,人类推理行为依赖于准确的中间步骤来得出正确的结论。与 ORM 不同,PRM 避免不正确的推理仍能得出正确最终答案的情况,从而确保更稳健和可解释的推理。虽然 PRM 主要应用于复杂的数学问题,但它的优势最近推动其他领域的应用。例如,ORPS [155] 利用 PRM 来解决复杂的代码生成挑战,而 Step-DPO [156] 将过程监督与直接偏好优化 (DPO) 算法 [162] 相结合以改进长链数学推理。下表给出奖励建模方法的摘要:

摘要:尽管 PRM 有优势,但也带来一些挑战。主要困难在于获取带有过程监督标记的数据,这通常既昂贵又耗时。为了解决与规模化、效率和准确性相关的问题,研究人员探索各种自动注释方法。例如,MATHSHEPHERD [147] 利用最终答案的正确性,根据中间步骤带来正确结果的可能性来定义中间步骤的质量,从而实现分步数据收集过程的自动化。ReST-MCTS∗ [151] 将过程奖励指导与 MCTS 相结合,通过广泛展开生成更高质量的推理轨迹。同样,OmegaPRM [152] 采用 MCTS 框架,同时引入分而治之算法来自动生成过程监督数据。另一种新方法是使用 ORM 来训练 PRM。Yuan [149] 提出在温和的奖励参数化假设下,利用更便宜数据集上的 ORM 训练来隐式训练 PRM。它们还为这种隐式 PRM 的性能提供理论保证,证明其实用性和成本效益。
除了数据收集之外,PRM 还面临着与可信度相关的挑战 [153],具体分类如下:
1)缺乏解释:当前的 PRM 通常会在没有足够解释的情况下为推理步骤生成分数,从而限制可解释性并阻碍它们在测试期间改进推理的实用性。
2)训练数据中的偏差:数据收集方法(例如 MCTS)往往会引入分布偏差,为大多数问题分配不成比例的较高分数。因此,PRM 很难有效识别错误的推理步骤。
3)早期步骤偏差:与更接近最终答案的推理步骤相比,PRM 在预测早期推理步骤奖励方面的准确率较低。这个问题源于与推理过程初始步骤相关的随机性和不确定性增加。
自我改进
推理 LLM 体现从弱监督到强监督的进展,而传统的 CoT 微调在有效规模化方面面临挑战。自我改进利用模型的探索能力进行自我监督,逐步提高 LLM 在翻译 [167]、数学 [163]、[168] 和多模态感知 [171] 等任务中的表现。这种方法促进推理 LLM 中的探索和应用 [166]、[184]–[186]。下表总结自我改进方法:

LLM 中基于训练的自我改进可以根据探索和改进策略进行分类。探索阶段侧重于数据收集,以促进后续训练改进,方法有显著差异。 STaR [163] 使用少样本例子进行数据收集,而 ReST [167]、ReST-EM [168] 和 ENVISIONS [169] 则依赖于对完整轨迹的多次采样。Quiet-STaR [111] 在 token 级进行探索,引入元 token 和非近视(non-myopic)损失等概念来增强监督。此外,ReST-MCTS* [151] 和 rStar-Math [166] 通过 MCTS 生成训练数据。
改进策略也表现出明显的多样性。例如,STaR 及其衍生产品(如 V-STaR [164] 和 B-STaR [165])将过滤与 SFT 相结合。ReST 及其变型通常会引入创新的奖励计算方法,来增强策略模型的 RL 训练。RISE [170] 在改进过程中结合了外部反馈、记录奖励并通过蒸馏来细化响应。值得注意的是,rStar-Math [166] 表明,小型模型已通过自我进化的训练方法实现系统 2 的反思能力。
测试-时自我改进,利用模型内部知识的一致性来纠正推理过程中的幻觉。这些方法可分为三类:使用提示改进答案的方法 [174]、[175]、利用外部工具的方法 [176] 以及利用 logits 而无需外部工具或提示的技术 [182]、[183]。
宏动作
LLM 推动宏动作框架模拟类人系统 2 认知过程的进展。这些结构化推理系统通过引入分层认知阶段(例如战略规划、内省验证和迭代细化),超越传统的 token 级自回归生成。这种方法不仅增强推理的深度,而且拓宽解决方案空间,从而实现更稳健、更多样化的问题解决途径。下表总结宏动作方法:

其中行动类别:AD=分析与分解,IPR=信息处理与推理,VC=验证与纠正,GO=生成与优化,EB=探索与回溯。
将宏动作的进展分为两个方面:
1)通过宏动作操作化进行测试-时间规模化:最近的研究确定两种在推理和测试-时间规模化过程中提高推理性能的关键方法。 HiICL-MCTS [190] 通过种子数据进行精心搜索,生成由宏动作组成的动作链模板,从而促进以动作链为导向的测试-时推理方法。ReasonFlux [192] 采用迭代测试-时规模化框架,利用外部高级思维模板迭代细化和更新当前 CoT。
2)宏动作增强数据合成范式:宏动作在复杂推理中的一个关键应用是推理数据的合成。在数据合成和训练框架中,宏动作架构增强推理的多样性和泛化能力。最近的研究表明,在推理序列中将 CoT 过程与宏动作集成或合成可以显著提高推理链的数据效率。例如,LLaVA-CoT [197] 通过外在化跨多种模态的中间推理步骤来增强 CoT 数据合成。 Atom-Think [199] 使用结构化的 g1 提示 [204] 生成 AMATH-SFT 数据集,与传统的 CoT 方法相比,它在长期推理任务上取得卓越的表现。CoAct [205] 引入一个双智体协作推理框架,其中全局规划体执行总体宏动作,而局部执行智体在这些更广泛的动作中执行特定的子动作。
宏动作在增强自我改进框架方面也发挥着至关重要的作用。rStar-Math [166] 通过代码增强的 CoT 利用高级深思熟虑的搜索,在实现主动搜索能力的同时生成多样化和可靠的解决方案。Satori [206] 将 CoT 与 RL 相结合,结合“”式的宏动作来多样化探索并缓解在线 RL 环境中的策略饱和。Huatuo-o1 [113] 将分层规划与域特定知识库相结合,以改进医学推理。此外,ReasonFlux [192] 动态地重新配置推理模板(例如,将微积分问题分解为符号和数字阶段)以与问题结构保持一致。
强化微调
强化微调 (RFT) [207] 是 OpenAI 最近推出的一项创新技术,旨在使开发人员和工程师能够针对特定域或复杂任务对现有模型进行微调。与一般的 SFT 不同,RFT 专注于通过使用奖励机制来指导模型的演进,从而优化模型的推理过程,这样增强其推理能力和准确性。RFT 的核心在于利用最少的高质量训练数据 [208]、合适的奖励模型 [209] 和长期稳定的优化过程 [210]–[213] 来提高模型在特定领域的性能。下表总结 RFT 方法:

DeepSeek-R1 [31] 采用基于验证器奖励的策略,与 SoS [214] 等传统方法相比,其性能得到显着提升。主要优势包括:
1)简化训练流程:RL 监督简化数据构建和训练过程,无需复杂的逐步搜索机制。
2)增强的规模化:在线 RL 训练有助于在大型数据集上实现高效规模化,特别是对于复杂的推理任务。
3)新兴特性:DeepSeek-R1 [31] 展示独特的新兴能力,例如 Long-CoT 推理,这些能力很难仅通过 SFT 实现。
尽管 RFT 具有诸多优势,但它仍面临以下挑战:
1)推理背后的机制不明确:推动 DeepSeek-R1 推理改进的底层机制仍然不太为人所知。例如,虽然 DeepSeek-R1 表现出涌现特性(例如“突现长度增加”、“顿悟时刻”),但 [242] 等研究表明,像 Long-CoT 这样的功能可能已经存在于基础模型中,而不仅仅是从 RL 训练中出现的。此外,在较小的模型(例如 Qwen-Math-2B/7B [243])中观察到的性能提升并没有明显的“顿悟时刻”,这使得因果解释变得复杂。
2)奖励模型饱和:许多现有的 RL 算法都面临奖励模型饱和的问题,通常表现为在大约 100 个训练步骤后探索崩溃。虽然 DeepSeek-R1 通过专门的奖励格式缓解了这个问题,但 ReFT [209] 和 Satori [206] 等方法提出交替采样和 SFT 蒸馏来对抗奖励黑客和探索崩溃。
3)不稳定的长 CoT 生成:RFT 生成的长推理链容易出现不稳定,包括上下文溢出、无法返回最终答案以及对奖励塑造的敏感性 [122]。例如,[239] 等方法无意中引入余弦奖励函数,这会随着迭代次数的增加而降低性能。O1-Prune [244] 使用事后长度修剪技术 [215](通过 RL/SFT)来稳定输出。
RFT 的未来方向可能包括几个令人兴奋和创新的进步,例如:
1)高效稳定的 RL 框架:需要开发更强大的 RL 算法,以防止奖励饱和和探索崩溃。[239] 表明,REINFORCE ++ [245] 与 KL 发散度正则化结合使用时表现不佳,这表明需要替代方法。未来的工作应该在现代 LLM 训练的背景下重新审视经典的 RL 算法,以优化稳定性和效率。
2)扩展 RFT:当前的 RL-监督模型依赖于从大规模数据集中选择的精选、可验证提示。未来的研究应侧重于合成高质量、多样化的提示以提高泛化能力。[240] 表明,仅仅扩展策略/奖励模型或增加样本量会导致收益递减,而扩大 PRM 和 R1 训练数据的范围则更有希望。应该探索混合方法,例如将 RL 与 SFT 或课程学习相结合,以增强规模化。
3)控制长 CoT 稳定性:需要自适应奖励塑造机制来平衡推理长度、连贯性和答案正确性。O1-Prune [244] 等技术证明事后长度正则化的价值,但动态训练控制是必要的。应研究分层 RL 框架,将长推理链分解为可管理的子任务,从而降低不稳定性。
4)理论与实证分析:必须明确 RL 训练与基础模型能力之间的关系。例如,应确定突现属性(例如 Long-CoT)是源自 RL 优化还是基础模型的潜特征。应系统研究奖励设计原则(例如稀疏与密集奖励、多目标平衡),以避免奖励黑客等非预期行为。
摘要:RFT 为推进 LLM 推理提供一个有希望的方向,DeepSeek-R1 [31] 就是明证。然而,奖励饱和、不稳定的长推理链和不明确的突发机制等挑战需要紧急关注。未来的努力应优先考虑算法创新、可规模化的快速综合和理论基础,以充分释放 RL 驱动推理 LLM 的潜力。
推理 LLM 的进化
推理 LLM 的进化经历几个不同的阶段,开发了各种策略来克服直接自回归推理的局限性并构建更先进的慢思考推理架构。
在早期阶段,推理 LLM 主要侧重于使用外部推理算法增强预训练的 LLM,而不改变底层模型参数。诸如思维树 [265] 和规划推理 [14] 之类的方法利用 LLM 驱动的广度优先搜索、深度优先搜索和 MCTS [98]、[125]、[128]、[266] 来模拟类似人类的推理过程。这些方法将推理表示为树或图的遍历,其中中间推理状态被描绘为节点,各种推理策略产生不同的推理路径。最终决定是通过额外的投票机制 [3] 或基于蒙特卡洛的价值估计来确定最佳路径。
然而,这些外化的慢速推理方法带来几个挑战:
有限的探索空间:基于搜索的方法需要对搜索空间的广度、深度和粒度进行预定义约束,这通常会将 LLM 的探索限制在狭窄的推理空间内。此外,同一父节点的不同子节点之间的推理策略通常缺乏足够的多样性,进一步限制了探索。
2)经验共享有限:不同路径之间的探索经验和推理信息只能基于奖励模型或结果之间的自洽性进行评估。此外,基于搜索的方法显著增加计算开销,依赖于奖励模型(如PRM/ORM)进行树修剪或推测解码技术来加速推理。
为了克服这些限制,后续模型(如rSTaR [193]、LLaMAV-o1 [198]、HiICL-MCTS [190]、Mulberry [196]、g1 [204]和Thinking-Claude [267])引入更丰富的动作空间。这些增强的动作空间提供高级规划线索,拓宽模型的探索范围并实现更全面的结构化搜索过程。然而,这种方法需要精心设计动作空间以确保其有效性。随着 o1 [29] 和 QwQ [118] 等模型的引入,外部推理范式被内化到 LLM 的上下文中。这些模型最初执行探索性宏规划以生成初始推理路径,然后进行替代路径的上下文探索。通过“重思考”和“验证”等机制,这些模型产生规模化的推理链。为了复制这种内化能力,STILL-1 [266] 将树搜索输出线性化为长推理链,具有“重思考”、“等待”和“探索新路径”等属性。同样,STILL-2 [53] 和 sky-T1 [119] 使用蒸馏技术合成长推理链。
然而,从基于搜索方法得出的线性化推理链,很难与蒸馏方法产生的推理链质量相匹配。最近的进展,包括 DeepSeek-R1 [31] 和 Kimi-k1.5 [215],已经证明 RL 增强 DeepSeek-V3 [17] 等模型的潜力,从而出现复杂的行为,例如长推理链、反思推理和高级规划能力。值得注意的是,这些复杂的行为是通过简单的 RL 规模化实现的。SimpleRL [123] 试图使用精简的流水线和最小的代码库来复制这些功能,而 R1V [234] 则探索基于多模态基础架构的多模态推理模型开发。
摘要:推理 LLM 的发展已经从外部增强推理转变为内部嵌入推理。最近的发展强调基于 RL 规模化释放高级功能的潜力。
推理 LLM 的基准测试如下。
开发一个强大的基准测试对于记录推理 LLM 能力的进步以及确定未来有希望的研究方向至关重要。从三个关键方面回顾基准测试的问题:类别、评估指标和性能比较,同时进行反思和提供见解。
基准测试类别
按任务类型对推理基准测试进行分类,大致可分为数学、代码、科学、代理、医学和多模态推理。这些基准测试的详细统计数据如表所示。

基准测试介绍
数学问题:记录当前流行的竞赛级数学基准测试,以展示推理 LLM 的能力,包括 AIME 2024 [246]、MATH-500 [37]、AMC 2023 [247] 和奥林匹克基准测试 [248]。
2)代码问题:代码问题需要扎实的基础和很强的逻辑思维,用来评估诸如 Codeforces、SWE-bench [249]和LiveCodeBench [250]等推理 LLM 的推理能力。
3)科学问题:科学基准测试,即GPQA Diamond [251]和MMLU-Pro [253],涉及化学、生物和物理等多领域推理,需要广泛的知识积累和综合推理。
4)智体推理:现实任务通常涉及复杂的规划和工具使用,从而导致智体推理基准测试的创建[268]。例如,WebShop [254]和WebArena [255]专注于Web操作,而SciWorld [256]和TextCraft [257]则以科学研究为中心。
5)医学推理:医学从根本上涉及复杂的推理,涵盖从诊断决策到治疗规划的任务。JAMA Clinical Challenge [258]、Medbullets [258] 和 MedQA [259] 的基准测试提供模拟医生疾病诊断的模型测量。
6)多模态推理:多模态推理,例如 MMMU [260] 和 MathVista [261] 的基准测试,需要结合文本和图像进行跨模态思维。特别是对于那些以视觉为中心的问题,在基准测试 MathVision [262]、MathVerse [269]、CMMaTH [263] 和 PGPS9K [264] 中,对推理 LLM 提出更高的要求。
总结
近年来,LLM 领域发展迅速,基准测试性能不断提高。简单推理基准测试,如 GSM8K [32]、MATH-500 [37] 和 ScienceQA [270],已接近性能饱和。最近对推理 LLM 的研究表明 [54]、[166],在这些基准测试中,为长推理链设计的模型表现并没有明显优于为短链设计的模型。这凸显建立新基准测试以更有效地评估推理 LLM 推理能力的迫切需要。此外,当前的基准测试有限,主要侧重于可靠的推理任务。软推理基准测试缺乏明确定义的正确答案,可提供更细致入微的评估,更好地捕捉类人推理的复杂性和微妙之处。此外,解决评估过程中的数据泄露问题至关重要 [271]。确保评估数据的机密性和中立性对于维护基准测试结果的完整性和可靠性至关重要。
评估指标
根据任务类型、技术方案和推理范式,推理 LLM 引入各种评估指标,如图所示。这些指标旨在更准确地评估模型在处理复杂推理任务时的性能,确保有效衡量生成解决方案的质量和连贯性。

任务类型
就基准类别而言,数学推理通常使用两个主要指标:Pass@k 和 Cons@k。Pass@k 指标评估模型在 k 次尝试内生成正确解决方案的能力,衡量在有限次数内成功的可能性。另一方面,Cons@k 评估模型是否始终如一地产生正确或逻辑上连贯的解决方案,突出其推理能力的稳定性和可靠性。对于代码任务,关键指标是 Elo 和 Percentile,这两个指标都衡量与其他模型或人类程序员相比生成正确代码的相对技能。在科学计算任务中,填空题一般采用EM(Exact Match)作为评估指标,选择题一般采用 Accuracy 作为评估指标。EM 指标判断模型输出结果是否与预期结果完全匹配,Accuracy 指标衡量正确答案在总问题数中所占的比例。
技术方案
基于技术路线,ORM 或 PRM 方案通常采用 RM@k 和 Best-of-N 两个评估指标。RM@k 衡量奖励模型能否根据奖励分数将好的答案排在前 k 个候选答案的前面,Best-of-N 从生成的 N 条推理轨迹中选择得分最高的解决方案。自洽性评估方法包括贪婪解码、集束搜索和 Major@k。贪婪解码和集束搜索,通过限制采样范围来控制推理过程的随机性,Major@k 从 k 个候选解决方案中选择结果最一致的解决方案。在强化学习中,指标既反映实现预期结果的表现,也反映学习过程的效率。例如,累积奖励衡量智体在一段时间内收到的总奖励,而样本效率则评估智体在学习过程中使用样本的效率。
推理范式
对于推理 LLM 中多轮解决方案生成的推理范式,结果效率和过程效率 [122] 是最近提出的,用于专门评估长期思考的效率。结果效率指标从经验上评估后续解决方案对准确度提高的贡献程度,将其表示为有助于获得正确答案的有效 tokens 与所有输出 tokens 的比例。过程效率指标从经验上评估后续解决方案对解决方案多样性的贡献,具体表示为不同解决方案的 tokens 与所有解决方案 tokens 的比例。这两个指标无疑揭示现有推理 LLM 对简单问题的过度思考问题。
总结
现有的大多数评估指标都是根据最终答案来判断的。鉴于推理计算消耗巨大,必须开发一个全面的评估框架,该框架应考虑推理过程的各个方面。当前流行的评估框架,如LMMs-Eval [278]、OpenCompass [279]和 PRMBench [280],效率不足,其指标没有充分考虑推理过程的计算和时间效率。为了解决这些缺点,探索更有效的智体任务作为潜在的解决方案。通过识别和利用更好地捕捉长推理链细微差别的任务,可以开发更强大、更有效的评估指标来增强整体评估框架,确保它不仅衡量最终输出的准确性,而且还评估整个推理过程的效率和连贯性。
性能比较
纯文本基准测试上的性能
如表所示,推理 LLM(例如 DeepSeek-R1 [31] 和 OpenAI-o1/o3 [29]、[30])在包括数学、编码和其他一般任务在内的广泛任务中表现出色。这些模型在多个纯文本基准测试(例如 AIME 2024、MATH-500 和 LiveCodeBench)上取得高分,展示其强大的基于文本的推理能力。相比之下,基础 LLM,如 GPT-4o [62]、Claude-3.5-Sonnet [272] 和 DeepSeek-V3 [17],通常表现不如推理 LLM,尤其是在数学和编码任务(例如 AIME 2024 和 Codeforces)中。例如,OpenAI-o1 在这些任务上的表现分别比 GPT-4o 高出 69.9% 和 73%。此外,基于 DeepSeek-V3 架构的 DeepSeek-R1 在所有基准测试中都超越其前身,进一步凸显推理 LLM 的优势。

多模态基准测试中的表现
如表所示,推理 LLM 在多模态任务中继续表现出色。 OpenAI-o1 [29] 在视觉任务中表现出色,在 MMMU 上取得 77.3% 的最高分,在 MathVista 上比其相应的基础 LLM GPT-4o [62] 高出 7.2%。然而,与纯文本任务相比,多模态任务的性能提升并不那么明显。这在一定程度上可以归因于当前多模态推理 LLM 技术的局限性,以及缺乏足够的数据集来充分评估推理 LLM 的多模态能力。

总结
总之,推理 LLM 在纯文本和多模态基准测试中都表现出色,尤其是在数学和编码任务中表现出色,它们的表现远远超过基础 LLM。虽然多模态任务的改进不如纯文本任务那么明显,但推理 LLM 仍然超越它们的对手,凸显它们在处理图像和文本数据方面的潜力。这些结果强调推理 LLM 在广泛推理任务中的多功能性和有效性,并有可能进一步发展多模态推理技术。
挑战和未来方向如下。
高效推理 LLM
协作慢思考与快思考系统
科学的 LLM 推理
神经和符号系统的深度集成
多语言 LLM 推理
多模态 LLM 推理
LLM 推理的安全
① 自动驾驶论文辅导来啦
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵