因为一句废话,大模型无法解决小学数学题?

大模型在数学推理方面的脆弱性

苹果在前段时间的一篇论文中指出,只要给大模型一些干扰,例如给小学数学题加一句“废话”,OpenAI o1就翻车了。

在这里插入图片描述
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃? 显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。

但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?
题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini 给出的答案是:在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。

正如研究人员在他们的论文中所说:「我们研究了这些模型中数学推理的脆弱性,并证明随着问题中子句数量的增加,它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」

这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发,他们一直对 AI 大模型的能力持怀疑态度。前段时间,François Chollet 还发帖说,LLM 通过提示使用时,无法理解与训练数据中情况大相径庭的情况,因此不具备通用智能。他认为,**LLM 的作用主要是作为实际 AGI 的知识和程序存储,它们是一种记忆形式,而智能不仅仅是记忆。**如今,苹果的这篇论文为他的观点提供了支撑。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值