来自中科院、MBZUAI、港科广、港城、华东师大、小红书等 8 家机构的研究人员总结超过 300 篇文献,系统地回顾了大模型推理能力发展的主要脉络,经典技术,热点问题。
其中,第一作者李忠志、张笃振来自中国科学院自动化研究所、MBZUAI,研究方向主要涉及多模态大模型、数学推理和 AI4Science,分别来自刘成林研究员、宋乐教授团队,本文的另一个通讯作者郭志江博士来自于港科广,主要关注大模型的知识和推理。
过去有大量认知科学的研究聚焦于人类认知系统的 System1/2 的理解和分析,也是人工智能领域重要的研究课题。实现人类水平智能需要优化从快速、直觉的系统 1 到更慢速、更审慎的系统 2 推理的过渡。系统 1 擅长快速、启发式决策,而系统 2 则依赖逻辑推理以实现更准确的判断并减少偏见。
“不要教,要激励。”
—Hyung Won Chung, OpenAI
System-2 AI 技术在最近出现了突飞猛进的发展,以“激励”而非“教导”的新的语言模型学习方式的工作对领域产生了颠覆性的影响。
OpenAI o1/Deepseek R1 之后如雨后春笋般出来的工作,Reasoning LLM 在各种 NLP、CV 和多模态任务上都出现了快速的进展,并且展示出了在智能体、具身智能以及 AI4Science 等任务上的巨大应用潜力。
从 o1 到 R1,再到 o3,Grok3,到刚刚发布的 QwQ-Max 和 Claude3.7,很有必要对这些强推理大模型,包括它们的特点、核心方法以及演变过程进行系统性的总结。
在此背景下,中国科学院自动化所、MBZUAI、CityU、University of Strathclyde,Xiaohonshu Inc. 等八家机构机构联合对近 300 篇文献进行全面调研,发布了《From System 1 to System 2: A Survey of Reasoning Large Language Models》的调研综述。
论文链接:
https://arxiv.org/abs/2502.17419
代码链接:
https://github.com/zzli2022/Awesome-System2-Reasoning-LLM.
该综述首先简要回顾了基础大语言模型的进展以及系统2技术的早期发展,探讨了它们的结合如何为推理大语言模型铺平道路。
接着,文章讨论了如何构建推理大语言模型,分析了其特点、实现高级推理的核心方法以及各类推理大语言模型的演变。此外,该文还概述了推理基准测试,并对代表性推理大语言模型的性能进行了深入比较。最后,探讨了推动推理大语言模型发展的潜在方向,并维护了一个实时 GitHub 仓库以跟踪最新进展。
作者团队希望该文章能为这一快速发展的领域提供有价值的参考,激发创新并推动进步,仓库内将会不断的维护,聚合这个领域令人兴奋的开源资源,共同促进领域的快速进步。
▲ 图1. Survey 资源仓库
综述结构
本综述提供了关于推理型 LLM 发展中的关键概念、方法和挑战的全面概述。如图 2 所示,本综述结构如下:
第 2 节简要回顾了基础 LLM 的进展和系统 2 关键技术的早期发展,包括符号逻辑系统、蒙特卡洛树搜索和强化学习,文章重新回顾了这些经典技术的核心科学原理以及涉及到 System-2 智能的核心特质,重点介绍了它们的结合如何为推理型 LLM 铺平道路。
第 3 节介绍了推理型 LLM,并概述了其构建过程。具体而言,第 3.1 节从输出行为和训练动态两个角度呈现推理型 LLM 的特点,强调它们与基础 LLM 的区别。第 3.2 节识别了实现高级推理能力所需的核心方法,重点介绍五个方面:结构搜索、奖励建模、自我改进、宏动作和强化微调。每个部分深入探讨了这些方法的具体特点、方法的受限性质,并介绍了代表性推理型 LLM。
▲ 图2. 综述结构
第 4 节评估了代表性的推理型 LLM。文章回顾了目前 System-2 Reasoning LLM 在文本、多模态、智能体领域出现的经典基准和经典任务类型。对出现的指标和内容进行了系统化的总结并且梳理了 Reasoning LLM 时代模型评估的发展趋势。
第 5 节强调了现有推理型 LLM 的局限性,并概述了这些模型的若干有前景的未来发展方向,比如:高效 System-2 的 Reasoning LLM,System-1 和 System-2 系统的协作,面向 AI4Science 的 Reasoning LLM,深度整合 System-2 系统的 Reasoning LLM,多语种、多模态场景下的 Reasoning LLM 等等。
▲ 图3. 传统推理技术与大模型推理技术分类
相比于最近的一些复现性项目,本综述与现有文献的不同之处及贡献在于:没有专注于单一技术方法,而是提供了推理型 LLM 的关键概念、方法和挑战的全面概述;总结了早期系统 2 的关键进展,并阐述了它们如何与基础 LLM 结合,为推理型 LLM 铺路——这是之前文献中常被忽视的关键方面。
文章提供了更为彻底和全面的核心方法总结,这些方法对于构建推理型 LLM 至关重要,包括但不限于强化学习。作者还提供了一个实时跟踪 GitHub 仓库,供用户关注该领域的最新进展。希望本综述能够作为一个宝贵的资源,促进这一快速发展的领域的创新和进步。
更全面的技术路线回顾
本节概述了驱动推理大语言模型高级推理能力的核心方法,如图 4 所示。这些方法包括结构搜索、奖励建模、自我改进、宏动作和强化微调。文章还为每种方法列举了具有代表性的推理大语言模型。
▲ 图4. 近期 Reason LLM 的发展时间线示意图
(1)结构搜索:解决复杂问题一直是基础模型的一个目标,基础模型在解决复杂的问题缺少关键的认知机制,比如缺少对于外在环境的建模和理解以及机制机制来执行长期限的推理,这些都阻碍了模型在复杂规划和推理时的探索和利用。
结构化搜索的方法将现在的各类方法建模为结构化的方式,推理状态被建模为树或者图结构中的节点,模仿人类推理过程中的结构化思维过程,搜索最高奖励的路径,并且来高效的探索现在 LLM 中巨大的搜索空间。
▲ 图5. 结构搜索方法归类
文章根据各种结构化搜索采用结构化动作粒度的不同,探索展开(Rollout)的不同、外部奖励模式模式的不同、以及具体的应用场景,对现有的大量结构化搜索的方法进行了细粒度的分类和总结。
尽管结构化在增强模型推理能力上取得了大幅度的收益。然而,主流结构化搜索的的效率特性限制了他们在在真实场景的应用,精心设计的宏动作模式和奖励引入方式也给泛化性带来了挑战,将来形式更高效、更自由的结构化搜索的方法在未来值得探索。
▲ 图5. 五大类基本技术
(2)奖励建模:在推理任务中,出现了两种主要的奖励机制用于对于多步推理问题的准确度进行建模。结果奖励模型主要从比较高的层次去评估求解轨迹是否能达成正确的答案。过程奖励模型则提供一步一步的标签用于评估每一步的步骤。过程奖励模型相比于结果奖励模型,更符合人类的认知机制,在自动过程评估,强化学习监督上也有更大的应用潜力。
然而,过程奖励建模方法面临比较多的困境,比如步骤的贡献和正确性比较难定义,尽管过去产生了一些利用 MCTS 之类的结构化搜索方法进行自动化合成的策略,又不可避免的引入数据偏差。
▲ 图6. PRM 技术与 ORM 技术
此外,也有研究表明,构建高效的自动化合成策略。文章对奖励类型、训练数据源、训练方式、应用方法和分类特色对于奖励模型对于现有的奖励模型进行了细粒度的分类。
(3)自我改进:传统的 CoT 微调改进面临比较大的 Scaling 困境,自我改进策略利用模型自身的探索能力,提升最终在翻译、数学、多模态感知领域的能力。探索和学习技术是两个核心的要素。探索过程中模型需要挖掘自己内部的知识,并且通过合理的方法根据外部/内部的筛选出冗余的探索轨迹,学习过程中将探索的经验用于重新内化到模型本身当中。
文章根据探索策略、反馈类型、学习策略、是否涉及训练、以及应用领域对于模型对于现有的自我改进方法进行了细粒度的分类。
(4)宏动作:层次化的思考结构和思维动作模式在人类的 System-2 认知过程中作用非常显著。这些宏观的思考结构和动作模式使得传统思维链的过程具有更强的结构一致性、更系统的探索模式、实现 System-2 系统特有的反思行为。
过去,自回归模型预测下一个 token 模式的方法不能有效地自我构建宏动作方法来实现更强的宏观规划。
最近,出现了大量的工作聚焦于手工设计、或者自动设计宏动作,来引导大语言模型内部的探索空间或者合成数据。文章根据这些方法的宏动作方法用途、构建方式、动作类型和动作规模、涉及到的基础模型的模态类型进行了分类。
(5)强化微调:OpenAI 发布以来,强化微调的热度产生了巨大的进步,相比指令微调引入多样化数据用于监督的方法而言,强化微调聚焦于使用奖励机制去引导模型的自我进化。相比于过去指令微调进行稠密奖励的方法,强化微调引入系数的奖励信号,在少数高质量的数据集上就能迸发出惊人的性能。
从 R1 发布以来,在单模态和多模态领域都出现了大量的工作用于研究在合适的基座的上进行强化自我提升的工作,文章全面总结了这些项目,并且总结了强化微调的核心优势和困境,优势包括:
更高效精简的训练流水线、 更强的可扩展性、自我的涌现属性和不清晰的推理机制。然而,强化微调算法也存在大量的问题,比如存在的问题包括:不清晰的内部机制、奖励的饱和、不稳定的长思维链生成过程。
文章根据奖励类型、模态属性、使用的强化算法、学习机制、激励样本规模、验证领域对于现有的开源项目、技术报告进行了细粒度总结。
系统的 Benchmark,指标,范式总结
构建一个强有力的基准测试对于记录推理大语言模型能力的进步以及确定未来发展的有前景的研究方向至关重要。在此,文章从三个关键方面回顾这些基准测试:分类、评估指标和性能比较,并提供反思与洞见。
文章将目前的主要 MLLM 评估分为数学、代码、科学、智能体、医学和多模态 6 个主要领域,系统总结了目前的主要的评估指标和设计思想。
除此之外,文章涵盖了后 R1 时代新类型的评价指标,比如过程准确率和推理效率。文章指出未来需设计更多样的评估指标用于捕捉长推理链细微差别的任务/数据集和评估方式,来评估整个推理过程的效率与连贯性。
▲ 图7. Reason LLM 的评估,技术报告和范式
由于推理 LLM 进行推理会产生大量的资源消耗。鉴于大规模推理计算消耗巨大,开发一个全面考量推理过程效率和粒度的多方面的评估框架势在必行。文章也提出探索更高效的代理任务作为潜在解决方案。
未来挑战
尽管推理大语言模型(LLMs)取得了快速进展,但仍存在若干挑战,限制了其泛化能力和实际应用性。文章最后概述了这些挑战,并强调应对这些挑战的潜在研究方向。
(1)高效推理大语言模型:虽然推理大语言模型在解决复杂问题上很厉害,但它们依赖大规模架构中的长自回归推理,这带来了很大的效率问题,也都限制了推理模型在更端侧场景的应用。
(2)更好的 System-1/2 切换: 推理大语言模型面临的一个关键挑战是快速思维能力的丧失,这导致在处理简单任务时,不必要的深度推理会降低效率。与人类能够在快速(系统 1)和慢速(系统 2)思维之间自如切换不同,当前的推理 LLMs 难以保持这种平衡。虽然推理 LLMs 确保了深思熟虑和全面的推理。
(3)面向科学发现 System-2 AI:推理大语言模型在科学研究中发挥着至关重要的作用,它们能够进行深入、结构化的分析,超越了基于启发式的快思考模型。在需要复杂推理的领域,如医学和数学领域,推理 LLMs 的价值尤为显著。
除了这些领域,推理 LLMs 还可以通过改进模型构建和假设检验,推动物理学、工程学和计算生物学等领域的进步。推理 LLMs 的研究不仅弥合了AI计算能力与类人分析深度之间的差距,还为更可靠、可解释和突破性的科学发现铺平了道路。
(4)神经与符号深度整合的 System-2 AI 系统:一个充满前景的未来方向是神经与符号系统的深度融合。谷歌的 AlphaGeometry 和 AlphaGeometry2 将推理 LLMs 与符号引擎结合,在国际数学奥林匹克中取得了突破。神经与符号系统的整合提供了一种平衡的方法,既提高了适应性又增强了可解释性,对于超越数学几何问题的复杂现实世界推理任务具有巨大潜力。
(3)多语言条件下的 System-2 AI 探索:当前的推理大语言模型在高资源语言中表现优异,展示了在翻译和各种推理任务中的强大能力。这些模型在拥有大规模数据和多样化语言资源的环境中表现出色。然而,它们在低资源语言中的表现仍然有限,面临着数据稀疏性、稳定性、安全性和整体性能方面的挑战。这些问题阻碍了推理LLMs在缺乏大量语言数据集和资源的语言中的有效性。
(4)多模态推理的 System-2 AI 探索:将慢思考推理能力从基于文本的领域扩展到多模态环境仍然是一个重大挑战,特别是在需要细粒度感知的任务中。关键的研究方向可能包括开发分层推理的 LLMs,以实现细粒度的跨模态理解和生成,这些模型需要针对音频、视频和 3D 数据等模态的独特特性进行定制。
(5)推理大模型的安全性问题:随着 OpenAI-o1 和 DeepSeek-R1 等推理大语言模型的快速发展,能够持续自我进化的超级智能模型逐渐崛起。然而,这一进展也带来了安全性与可控性方面的挑战。强化学习作为一种关键的训练方法,引入了奖励黑客攻击、泛化失败和语言混合等风险,这些可能导致有害的结果。
随着这些模型超越人类的认知能力,确保其安全、负责任和透明的使用变得至关重要。这需要持续的研究,以开发控制和引导其行为的方法,从而在 AI 的强大能力与伦理决策之间取得平衡。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·