本文是LLM系列文章,针对《Thoughts Are All Over the Place: On the Underthinking of o1-Like
LLMs》的翻译。
思想无处不在:论o1-Like LLMs的思考不足
摘要
大型语言模型(LLM),如OpenAI的o1,通过扩展测试时间计算和表现出类人的深度思维,在复杂的推理任务中表现出了非凡的能力。然而,我们发现了一种我们称之为“欠思考”的现象,即类似o1的LLM经常在不同的推理思维之间切换,而没有充分探索有希望的路径来达到正确的解决方案。这种行为会导致推理深度不足和性能下降,特别是在具有挑战性的数学问题上。为了系统地分析这个问题,我们在三个具有挑战性的测试集和两个具有代表性的开源类o1模型上进行了实验,揭示了频繁的思维转换与不正确的反应相关。我们引入了一种新的度量方法,通过测量错误答案中的token效率来量化思考不足。为了解决思维不足的问题,我们提出了一种具有思维转换惩罚(TIP)的解码策略,该策略阻止了思维之间的过早转换,鼓励对每种推理路径进行更深入的探索。实验结果表明,我们的方法在不需要模型微调的情况下提高了具有挑战性的数据集的准确性。我们的研究结果有助于理解类o1 LLM中的推理效率低下,并为提高他们的问题解决能力提供了一个实用的解决方案。