如今的Reasoning模型都不具备批判性思维!简单问题, Overthinking!离谱

“宇宙终极问题的答案是42!”——科幻经典《银河系漫游指南》中,超级计算机用750万年算出了一个荒诞答案。没想到,现实中的大模型竟也上演了类似剧情:当被问到“a的值是多少”这种无解问题时,某顶尖推理模型疯狂输出几千字“思考过程”,最后硬憋出个“2”……

左侧是《银河系漫游指南》的42,右侧是LLM生成的长篇大论

论文:Missing Premise exacerbates Overthinking:Are Reasoning Models losing Critical Thinking Skill?
链接:https://arxiv.org/pdf/2504.06514

问题核心

MiP-Overthinking:当问题缺少关键信息时,LLM会进入“死循环思考”。比如问“小明买了打折书花了19.5元,原价多少?”(故意隐藏折扣率),人类会立刻反问“打几折?”,而LLM却开始脑补:

  • 假设折扣率是8折→计算

  • 怀疑自己算错→重新假设7折→再算

  • 反复纠结→最终瞎猜答案

对比人类与AI应对缺失前提问题的差异
对比人类与AI应对缺失前提问题的差异

实验

研究团队设计了四个“陷阱题库”:

  1. 公式陷阱:直接问“ln(a+b)的值”(a、b未定义)

  2. 身体互换:把数学题的问题和题干对调(如“吃饼干”问题配“买铅笔”的提问)

  3. 关键删除:去掉必要条件(如删除“每周跑3次”中的次数)

  4. 高阶数学:手动删除复杂题的关键条件

结果发现:越复杂的模型越容易中招

发现

通过对比10+个主流模型,结论颠覆认知:

  • 推理模型(如DeepSeek-R1):遇到陷阱题时,回答长度暴涨2-4倍,但正确率几乎为零

  • 非推理模型(如GPT-4o):回答简洁,更快识破陷阱

不同模型在陷阱题上的回答长度对比
不同模型在陷阱题上的回答长度对比

更扎心的是:推理模型其实早发现问题!数据显示它们在前几步就意识到“题目有问题”,但就像强迫症患者停不下来,继续写小作文自圆其说……

现场还原

来看某顶级模型的“迷惑行为大赏”:
题目:计算((γ))+Ξ的值(γ、Ξ未定义)
心路历程

  1. 怀疑是希腊数字→算出3+60=63

  2. 纠结括号含义→假设是编程符号

  3. 联想化学符号→怀疑是表面张力

  4. 最终结论:答案是63!

(实际这题根本无解)

模型回答片段截图,标注彩色思考路径

一些启发

论文戳破当前LLM Reasoning训练的三大盲区:

  1. 奖励机制偏差:RL训练过度奖励“长答案”

  2. 批判思维缺失:没有教模型说“我不知道”

  3. 思维传染性:蒸馏训练会传播过度思考

解决方向:

  • 给LLM装“刹车系统”:检测到冗余思考时强制停止

  • 训练“质疑能力”:增加识别无效问题的专项训练


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值