Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

本文是LLM系列文章,针对《Thoughts Are All Over the Place: On the Underthinking of o1-Like
LLMs》的翻译。

摘要

大型语言模型(LLM),如OpenAI的o1,通过扩展测试时间计算和表现出类人的深度思维,在复杂的推理任务中表现出了非凡的能力。然而,我们发现了一种我们称之为“欠思考”的现象,即类似o1的LLM经常在不同的推理思维之间切换,而没有充分探索有希望的路径来达到正确的解决方案。这种行为会导致推理深度不足和性能下降,特别是在具有挑战性的数学问题上。为了系统地分析这个问题,我们在三个具有挑战性的测试集和两个具有代表性的开源类o1模型上进行了实验,揭示了频繁的思维转换与不正确的反应相关。我们引入了一种新的度量方法,通过测量错误答案中的token效率来量化思考不足。为了解决思维不足的问题,我们提出了一种具有思维转换惩罚(TIP)的解码策略,该策略阻止了思维之间的过早转换,鼓励对每种推理路径进行更深入的探索。实验结果表明,我们的方法在不需要模型微调的情况下提高了具有挑战性的数据集的准确性。我们的研究结果有助于理解类o1 LLM中的推理效率低下,并为提高他们的问题解决能力提供了一个实用的解决方案。

1 引言

2 观

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值