CoT是否仍是增强Reasoning能力的必要工具?

近年来,推理大语言模型(RLLMs)通过内置的链式思考(CoT)能力,在复杂任务中展现出显著优势。然而,传统LLMs依赖外部CoT提示(如少样本示例)提升性能,但研究人员担心这种策略可能对RLLMs无效甚至有害。本文首次系统探究了零样本CoT(仅添加“逐步思考”指令)和少样本CoT对RLLMs的影响,并提出了关键问题:CoT提示是否仍是增强RLLMs推理能力的必要工具

论文:Innate Reasoning is Not Enough:In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
链接:https://arxiv.org/pdf/2503.19602

CoT提示对RLLMs的四大作用:提升性能、控制思考令牌数、调节推理步骤、抑制过度反思

方法与实验

实验覆盖1.5B至32B参数的RLLMs(如DeepSeek-R1系列),并在6个数学推理数据集(GSM8K、MATH、AIME24等)上测试。通过对比直接提示零样本CoT少样本CoT,评估以下指标:

  • 准确性:答案正确率

  • 思考令牌数:模型输出中用于推理的token数量

  • 推理步骤:逻辑分解的步骤数

  • 反思频率:如“Wait”“Double-check”等自我修正语句的出现次数

不同模型在多个数据集上的准确性对比
不同模型在多个数据集上的准确性对比

主要发现

  • 性能提升的普遍性:72%的实验场景中,CoT提示显著提升RLLMs准确性,如R1-1.5B在GSM8K任务中零样本CoT提升475.4%。

  • 模型容量与任务复杂度的交互效应

    • 大模型(如32B)在复杂任务(如AIME24)上提升显著(最高333%),而在简单任务(如GSM8K)上增益微弱(0.6%)。

    • 小模型(如1.5B)则相反,简单任务提升显著(475%),复杂任务增益有限。

  • 单样本CoT的优越性:与LLMs不同,RLLMs在单示例提示下表现最佳(如R1-32B在AIME24上提升467%),多示例可能引入干扰。

  • 过度反思的抑制:CoT提示可将反思频率降低约90%(如R1-32B在AIME24上从414次/问题降至2.56次)。

对比不同提示方法下模型的反思频率
对比不同提示方法下模型的反思频率

深度分析

  • 思考令牌分布:直接提示下令牌数分散,而CoT提示(尤其是少样本)使分布集中,减少冗余。

MATH数据集上不同提示方法的令牌分布差异
MATH数据集上不同提示方法的令牌分布差异
  • 推理步骤与准确性的关系:复杂任务中,步骤数与准确性正相关,但简单任务存在“倒U型”关系(步骤过多导致性能下降)。

步骤数与准确性的相关性
步骤数与准确性的相关性
  • 注意力机制揭示的过度反思根源:RLLMs对“Wait”“Double-check”等词的注意力权重显著高于基模型,表明其训练过程中过度拟合自修正机制。

对比R1-8B与基模型的注意力分布差异
对比R1-8B与基模型的注意力分布差异

结论与意义

本文证实了CoT提示对RLLMs的必要性:

  1. 性能优化:通过单样本CoT实现高效推理。

  2. 行为调控:抑制过度反思,减少冗余计算。

  3. 工程启示:需根据模型容量和任务复杂度动态选择提示策略。
    未来研究可探索更精细的提示设计,或结合强化学习进一步优化RLLMs的反思机制。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值