这篇Long CoT Reasoning综述隐藏好多idea啊!

来自哈工大/中南大学/港大/复旦的一篇关于长CoT推理的综述非常值得大家好好看看!

论文:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
链接:https://arxiv.org/pdf/2503.09567

大纲

  1. 引言与背景

  • LLMs在复杂推理任务中的进展

  • Short CoT的局限性及Long CoT的提出背景

  • 论文的核心目标与贡献

  • Long CoT与Short CoT的核心区别

    • 推理深度与逻辑节点数量

    • 探索广度与路径多样性

    • 反馈与修正机制

  • Long CoT的关键特性

    • 深度推理(Deep Reasoning)

    • 广泛探索(Extensive Exploration)

    • 可行反思(Feasible Reflection)

  • 现象分析与评估方法

    • Long CoT的涌现现象与边界限制

    • 过思现象(Overthinking)与测试时扩展(Test-Time Scaling)

    • 评估指标与基准(如GSM8K、MATH、HumanEval等)

  • 技术实现与资源

    • 深度推理格式(自然语言、结构化语言、隐空间推理)

    • 训练框架与数据集(如DeepSeek-R1、OpenMathInstruct)

    • 开源资源与工具链

  • 未来方向与挑战

    • 多模态与多语言推理

    • 效率优化与知识增强

    • 安全性问题与认知边界

  • 结论与贡献

    • 系统化区分Long CoT与Short CoT

    • 推动LLMs推理能力的新范式

    1. 引言与背景

    近年来,以OpenAI O1和DeepSeek R1为代表的推理型大语言模型(RLLMs)在数学、编程等复杂任务中展现出强大能力,其核心在于长思维链(Long CoT)的应用。传统短思维链(Short CoT)因推理深度不足、路径单一,难以解决需要多步逻辑推导的问题。本文首次系统化梳理Long CoT的特征,填补了该领域的综述空白,并为解决“过思”和“测试时扩展”等争议提供统一视角。

    Long CoT的演进脉络
    Long CoT的演进脉络

    2. Long CoT与Short CoT的核心区别

    论文通过形式化定义对比两者:

    • 推理深度:Short CoT受限于浅层线性推理(如公式1中的节点数限制),而Long CoT通过放宽节点边界(公式2)支持更复杂的逻辑结构。

    • 探索广度:Short CoT仅探索固定路径,Long CoT允许并行探索不确定节点(公式3),覆盖更多潜在解空间。

    • 反馈修正:Short CoT无法回溯修正,Long CoT通过反馈(公式5)和优化(公式6)动态调整推理路径。

    两者的三维特性差异,如深度、探索、反思的整合

    3. Long CoT的关键特性

    • 深度推理:支持多层次逻辑分析,例如通过自然语言(如CodeI/O)、结构化语言(如数学符号推理)或隐空间操作(如递归块)实现。

    • 广泛探索:在编码和数学问题中,通过蒙特卡洛树搜索(MCTS)生成多样化解路径。

    • 可行反思:结合过程反馈(PRM)和结果反馈(ORM),减少错误传播。

    不同推理格式在GSM8K等基准上的性能对比
    不同推理格式在GSM8K等基准上的性能对比

    4. 现象分析与评估方法

    • 过思现象:当推理链超过模型能力边界时,性能不升反降(如Chen et al.提出的“推理边界”模型)。

    • 测试时扩展:垂直扩展(增加推理步长)与并行扩展(多路径采样验证)的权衡。

    • 评估基准:数学(GSM8K)、编程(HumanEval)、常识(BIG-Bench Hard)等任务的多样化指标(如Pass@k、Cons@k)。

    六大现象,如过思、测试时扩展

    5. 技术实现与资源

    • 训练框架:结合监督微调(SFT)与强化学习(RL),如DeepSeek-R1通过规则奖励激活自我反思。

    • 数据集:涵盖人工标注(如GSM8K)、蒸馏数据(如NuminaMath-CoT)和验证数据(如KodCode-V1)。

    • 开源工具:Open-R1、Logic-RL等框架推动社区复现与扩展。

    开源数据集类别与规模
    开源数据集类别与规模

    6. 未来方向与挑战

    • 多模态推理:融合视觉与文本链式推理(如M3CoT)。

    • 效率优化:通过隐空间推理压缩计算成本(如Heima的单令牌推理)。

    • 安全性:避免长链推理中的误导性输出(如对抗性攻击研究)。

    未来方向的六大领域图示
    未来方向的六大领域图示

    7. 结论与贡献

    本文首次系统化区分Long CoT与Short CoT,提出统一分类法,并揭示其核心特性如何推动LLMs在复杂任务中的表现。通过开源框架与数据集,为后续研究奠定基础,标志着LLMs进入“深度推理时代”。


    备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

    id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值