o1类大模型的过度思考: 2+3=?

aef945b88119dee95445c8aeed2d6214.png

腾讯AI Lab上交发现在面对一个基本的算术问题“2+3=?”时,o1类LLMs为何会表现出过度思考的现象。这个问题虽然简单,但它揭示了当在处理复杂任务时,这些模型是否真正高效和智能。下面一起深入剖析下这篇文章的内容吧,很有意思的。

0052fba9093f0c6987ce410d438a6f7f.png

论文:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
链接:https://arxiv.org/abs/2412.21187
作者:Wzl
来自:深度学习自然语言处理

动机

目前o1类的LLM会探索多种策略,分解复杂的步骤等去增强处理复杂推理任务的能力,这些对问题的探索和拆解会生成比较长的思维链。这依赖于scaling test-time compute,也就是分配了更多的资源在推理阶段以提高任务的准确率。但是,目前的scaling test-time compute是否是高效并且智能呢? 并不是。9e7848cfed87d5df3df5af47f2520d8a.jpeg作者观察到o1类模型存在明显的“过度思考”的问题,对简单的2+3=?o1类模型相比基础模型的token消耗是1,953%, 因此作者希望通过self-training的范式去缓解这个问题。

关于“过度思考”的观察

1)o1 类模型往往会对更简单的数学问题生成更多轮的solution(但其实很多轮的solution中都包含了最终的答案,往往不需要那么多轮的solution)b8ebadd50d7d21641ac0d47604847347.png2)越后面的solution对准确率的提升微弱。3e26bc4f012bd8d9ca9c0beedc4539f8.png3)后面的solution经常重复前面的(多样性不高)。190413566e3fe21a43b043b11622ec0a.png由2)3)观察,作者提出两个评估指标:

  • Outcome Efficiency Metric:第一个回答对的solution对应token数/总token。

  • Process Efficiency Metric:每个solution中有效增加多样性(不同角度)的token数之和/总token。e29f4675d3080ca1946ddbc45c172cec.png23ab424290fa03daad535cff3f1893a8.png在三个数据集上,测试了o1类模型(QWQ-32B-preview、DeepSeek-R1-preview)与非o1类模型(Llama-3.3-70B-Instruct、Qwen2.5-Math-72B-Instruct)在这两个指标上的表现。39b8e6d4018532c126d59f24ac8ea8d7.png对MATH-500结果在不同难度段的Outcome Efficiency和Process Efficiency分析,发现o1类模型对于更简单的数学问题“过度思考问题”尤其明显。792d797324f707a9e2dfb18194804610.png

缓解“过度思考”的方法

作者使用PRM12K数据让模型自己生成训练数据,探究了:1)分别用SFT、DPO、RPO、SimDPO进行post-training 2)First-Correct Solutions (FCS)、FCS + Reflection、Greedily Diverse Solutions (GDS)去进一步简化回复。通过实验证明有效缓解了“过度思考”。b56dc4f0fc234e705441e11cfcc5ba9c.png

思考

  • 文章重点在观察和发现“过度思考”的现象,很自然的提出两个评估指标,并通过现有的方法,以及提出几个进一步的优化策略去解决。

  • 论文读起来很清晰,挺有意思的,值得一读。

  • 还有很多点可以继续探究,如何找到scaling test-time compute在efficiency和performance的最佳平衡。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

8cb7e4e1610784734831a475e16dabb7.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值