【LLM】From System 1 to System 2 推理LLM综述

note

  • 推理大模型综述:From System 1 to System 2: A Survey of Reasoning Large Language Models

一、推理模型发展历程

  • 第2节简要回顾了基础LLM的进展(第2.1节),以及系统2关键技术的早期发展,包括符号逻辑系统(第2.2节)、蒙特卡洛树搜索(MCTS)(第2.3节)和强化学习(RL)(第2.4节),重点介绍了它们的结合如何为推理型LLM铺平道路。
  • 第3节介绍了推理型LLM,并概述了其构建过程。具体而言,第3.1节从输出行为(第3.1.1节)和训练动态(第3.1.2节)两个角度呈现推理型LLM的特点,强调它们与基础LLM的区别。第3.2节识别了实现高级推理能力所需的核心方法,重点介绍五个方面:结构搜索(第3.2.1节)、奖励建模(第3.2.2节)、自我改进(第3.2.3节)、宏观动作(第3.2.4节)和强化微调(第3.2.5节)。每个部分深入探讨了这些方法的具体特点,并介绍了代表性推理型LLM。第3.3节追溯了推理型LLM的发展阶段。
  • 第4节评估了代表性的推理型LLM。具体而言,第4.1节回顾了当前主流推理基准,涵盖了文本和多模态基准,涉及各种任务类型。第4.2节概述了当前的评估指标,第4.3节基于这些基准分析并比较了主流推理型LLM与基础LLM的性能。
  • 第5节强调了现有推理型LLM的局限性,并概述了这些模型的若干有前景的未来发展方向。
  • 最后,在第6节中总结了本文,并提供了一个实时跟踪GitHub仓库,供用户关注该领域的最新进展。我们希望本综述能够作为一个宝贵的资源,促进这一快速发展的领域的创新和进步。

论文:From System 1 to System 2: A Survey of Reasoning Large Language Models
在这里插入图片描述

论文框架:
在这里插入图片描述

二、推理大模型的主流方法

传统LLM和推理模型的区别
在这里插入图片描述
慢思考模型的主流方法:
在这里插入图片描述
(1)结构搜索:

  • 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。
  • 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状态和迭代回传估计的奖励,MCTS使基础大语言模型能够高效地识别高奖励的推理路径,模仿人类的规划过程。

(2)奖励建模:

  • 两种主要的训练范式用于解决多步推理任务:结果监督和过程监督。结果监督强调最终答案的正确性,生成的模型称为结果奖励模型(ORM)。相比之下,过程监督为解决方案轨迹提供逐步标签,评估每个推理步骤的质量。生成的模型称为过程奖励模型(PRM)。
  • PRM在复杂推理任务中具有显著优势。首先,它提供了细粒度的逐步监督,允许识别解决方案路径中的特定错误。其次,PRM密切模仿人类推理行为,依赖于准确的中间步骤来得出正确结论。与ORM不同,PRM避免了错误推理仍能导致正确最终答案的情况,从而确保更稳健和可解释的推理。

(3)自我改进:推理大语言模型展示了从弱监督到强监督的进步,而传统的链式思维微调在扩展方面面临挑战。自我改进利用模型的探索能力进行自我监督,逐步提高大语言模型在翻译、数学推理和多模态感知等任务中的性能。

(4)宏观行动:最近在大语言模型中的进展推动了通过复杂思维架构模仿人类系统2认知过程的进步,通常称为宏观行动框架。这些结构化推理系统超越了传统的标记级自回归生成,引入了分层的认知阶段,如战略规划、内省验证和迭代改进。

(5)强化微调:强化微调(RFT)是OpenAI最近引入的一项创新技术,旨在使开发人员和工程师能够针对特定领域或复杂任务微调现有模型。与一般的监督微调(SFT)不同,RFT专注于通过使用奖励机制来优化模型的推理过程,从而提高其推理能力和准确性。

在这里插入图片描述

三、相关benchmark

在这里插入图片描述

  • 数学问题:我们记录了当前流行的竞赛级数学基准,以展示推理大语言模型的能力,包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench。
  • 代码问题:代码问题需要扎实的基础和高逻辑思维来评估推理大语言模型的推理能力,如Codeforces、SWEbench和LiveCodeBench。
  • 科学问题:科学基准,如GPQA Diamond和MMLU-Pro,涉及化学、生物学和物理学的多领域推理,需要广泛的知识积累和综合推理。
  • 代理推理:现实任务通常涉及复杂的规划和工具使用,导致了代理推理基准的创建,如WebShop和WebArena。
  • 医学推理:医学本质上涉及复杂的推理,涵盖从诊断决策到治疗计划的任务。JAMA Clinical Challenge、Medbullets和MedQA等基准提供了模仿医生疾病诊断的模型测量。
  • 多模态推理:多模态推理,如MMMU和MathVista基准,需要结合文本和图像的跨模态思维。

到目前为止,ds r1的分数和openai o3-mini多项指标基本持平:
在这里插入图片描述

四、总结

协同慢思维与快思维系统推理型LLM面临的一大挑战是失去快速思维能力,这导致在简单任务中需要不必要的深度推理,造成效率低下。与人类能够流畅地在快思维(系统1)和慢思维(系统2)之间切换不同,当前的推理型LLM在保持这种平衡方面存在困难。虽然推理型LLM确保了深思熟虑和全面的推理,但快思维系统依赖于先前的知识以提供快速回应。尽管有如系统1-2切换器[95]、推测解码[258]–[260]和互动持续学习[261]等努力,整合两种思维模式仍然是一个挑战。

Reference

[1] 关于大模型推理技术总结集合,Awesome-System2-Reasoning-LLM: https://github.com/zzli2022/Awesome-System2-Reasoning-LLM
[2] From System 1 to System 2: A Survey of Reasoning Large Language Models
[3] 从系统1到系统2:推理大语言模型综述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值