爱丽丝梦游仙境,把大模型打回原形

在如今AI无处不在的时代,许多人认为AI已经无所不能了。

AI代写文章、代写代码、AI绘画甚至AI制作PPT等功能,可能会让你觉得AI已经超越了人类。

然而,最新的一个研究表明,AI在处理一些简单的逻辑推理问题时,水平甚至还不如小学生

这就是“爱丽丝梦游仙境”测试,研究人员设计了一项名为“爱丽丝梦游仙境”(AIW)的测试。

图片

这个测试对我们来说并不算难:“爱丽丝有N个兄弟,她还有M个姐妹,请问爱丽丝的兄弟有多少个姐妹?” 

只需稍加思考,答案显而易见:M+1(爱丽丝的姐妹数量加上爱丽丝自己)。

然而,当研究人员让当前最先进的语言模型如GPT-3.5/4、Claude、Llama等回答这个问题时,结果却令人吃惊。

论文地址:

https://arxiv.org/abs/2406.02061

GPT-4o

图片

GPT3.5

图片

LLaMa3-8B

图片

再看一下国内的大模型表现如何。

讯飞星火

图片

清华智浦GLM4

图片

月之暗面Kimi

图片

阿里通义千问2.5

图片

国内最新的大模型也有一半的回答是错误的。

这暴露了目前很多大模型在推理能力上的局限性。

来自知名开源AI研究机构LAION的团队发表了一个事实:即使是当今最先进的AI模型,其推理能力也几乎达不到小学生的水平

LeCun,那个著名的AI大佬,在评论这一现象时也指出:推理能力和常识不应与存储和检索大量事实的能力混为一谈

推理能力和搜索引擎不一样,很多大模型表现的好,有时会被认为是因为大模型学习了大量的知识,而这些知识被编码存储在了大模型的权重中。

这也是现在很多人在讨论的一点:大模型到底是自己创建了一个巨大的知识库用来索引,还是它真的学到了一些知识呢?

不知你怎看待这个问题呢?


我的技术专栏已经有几百位朋友加入了。

如果你也希望了解AI技术,学习AI视觉或者大语言模型,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀

CV视觉入门第三版(细化版)完成

我的Transformer专栏努力更新中

最后,送一句话给大家:生活不止眼前,还有诗和远方,共勉~

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董董灿是个攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值