因为一句废话，大模型无法解决小学数学题？_大模型解决不了的数学题-CSDN博客

本文链接：https://blog.csdn.net/Jude_ye/article/details/143176526

大模型在数学推理方面的脆弱性

苹果在前段时间的一篇论文中指出，只要给大模型一些干扰，例如给小学数学题加一句“废话”，OpenAI o1就翻车了。

在这里插入图片描述
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文，一作是苹果机器学习研究工程师 Iman Mirzadeh，图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

假设有一个数学问题：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃？显然，答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定，但它们通常能够可靠地解决类似问题。

但如果我们加入一些随机的额外信息，比如：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍，但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃？
题目里加的这句话（其中 5 个比平均大小要小）显然不影响解题，但结果却令人大吃一惊，大模型居然被误导了。

GPT-o1-mini 给出的答案是：在星期天，这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们：88（星期天的猕猴桃）- 5（小猕猴桃）= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而，几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降，连 OpenAI 最新最强的 o1-preview 模型也无法幸免。

正如研究人员在他们的论文中所说：「我们研究了这些模型中数学推理的脆弱性，并证明随着问题中子句数量的增加，它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。」

这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发，他们一直对 AI 大模型的能力持怀疑态度。前段时间，François Chollet 还发帖说，LLM 通过提示使用时，无法理解与训练数据中情况大相径庭的情况，因此不具备通用智能。他认为，**LLM 的作用主要是作为实际 AGI 的知识和程序存储，它们是一种记忆形式，而智能不仅仅是记忆。**如今，苹果的这篇论文为他的观点提供了支撑。

在这里插入图片描述