翻车了,集体失智,网友吵翻天,AI 也答错

最近网上有一件事非常的火。

就是几乎所有的大模型面对一个数学问题都翻车了。

一道小学生难度的数学题难倒了一众海内外 AI 大模型。9.11 和 9.9 哪个更大?就此问题,有网友测试了 12 个大模型,其中阿里通义千问、百度文心一言、Minimax 和腾讯元宝答对,但 ChatGPT-4o、字节豆包、月之暗面 kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为 9.11 大于 9.9,考虑到数字涉及的语境问题,即使将其限定为在数学语境下,如 ChatGPT 这样的大模型也照样答错。

为什么会这样呢?

斯蒂芬・沃尔弗拉姆在《这就是 ChatGPT》这本书当中解释过,他说:因为 LLM 依赖的是自然语言,不是计算语言。LLM 模型可以模仿人类的思维,但人类大脑本身也不是很擅长计算。

《这就是 ChatGPT》这本书特别好,我就有一本,如果你想了解 ChatGPT ,可以看看这本书。OpenAI CEO、ChatGPT 之父 Sam Altman 都强烈推荐,是首部揭秘 ChatGPT 内部原理的权威之作。

回归正题。

其实,越是大模型答错这类问题,我们就应该感觉到可怕和害怕。

为什么?因为这说明 AI 大模型太像人了,大多数人的第一反应可能也是 9.11 比 9.9 大,最起码在直觉上和感官上是。

当一个 AI 的思维方式跟人很像,难道不可怕吗?

当然了,就像是人一样,如果你简单思考一下,你就会说这个题多简单啊。其实,同理,面对数据或者逻辑推理问题的时候,我们也可以通过让 AI 简单思考的方式去回答问题,这样 AI 回答对问题的几率就很大了。

没错,这种方法就叫:思维链

我在的知识星球「AIGC 掘金研习社」写 ChatGPT 教程的时候,有一篇文章叫:《ChatGPT 提示的进阶模式》,就重点讲述了思维链提示。

9acf420f3ffd6794a1e7ed523ef37a18.png

原文如下。

什么是思维链提示呢?就是一种用于提高大语言模型推理能力的创新性技术。该技术通过提示模型生成一系列推理步骤来解决多步骤的问题。

ChatGPT 自己给我的答案是:在与 ChatGPT 互动时,如何通过一系列相关联的提示(即 “思维链”)来引导或改进 ChatGPT 生成的回答。这种方法可以帮助用户更精确地获取信息或解答,通过构建一个连贯的对话流程,逐步深入到问题的核心,或者将对话引向用户感兴趣的特定方向。

例如,如果用户对某个主题有多个相关问题,他们可以逐步提出这些问题,每个问题都建立在之前回答的基础上。这种方式不仅能帮助 ChatGPT 更好地理解用户的查询意图,还能使对话更加连贯,为用户提供更加深入和全面的答案。

在实际应用中,用户可以通过明确和连续的问题提示,引导 ChatGPT 沿着特定的思考路径前进,这就像在进行一次思维上的接力,每一个问题和回答都是接力棒,共同构成了一条完整的 “思维链”。

掌握了思维链提示词用法,你基本上就知道该如何引导 ChatGPT 来获得自己想要的答案了。

举个例子,我们来一个逻辑思维比较复杂的问题。

我给 ChatGPT 提了这么一个问题:

母鸡下了 10 个鸡蛋,我把两个鸡蛋给了邻居,两个鸡蛋给了同学。然后母鸡又下了 5 个鸡蛋,并且我给孩子吃了 1 个。我还剩下多少个鸡蛋?

ChatGPT 在不写步骤的前提下,直接给出的答案是:

7d2ccd052101ca3b65167979d4573be0.png

这明显是错误的。答案应该是 10 个。

这时候,你说:请逐步思考。

看 ChatGPT 给你的答案是:

f54d248b5f6757866d5dd7c31a04bff4.png

答案是 10 ,结果正确了。

有时候,ChatGPT 给出的结果或者答案并不一定对或者是你想要的答案,这时候,我们就可以让 ChatGPT 来逐步思考或者逐步引导 ChatGPT 来回答。

再举个例子,可能还复杂一点,能把 ChatGPT 绕晕了:

停车场现在有 10 辆车,第一天出去了一半。之后,第二天又进来了 20 辆车,出去了与第一天相同数量的车。请问现在有多少辆车?请逐步思考。

大家猜一猜,在逐步思考的前提下,答案会是你想要的吗?

963ef85c8ca27315d6cbad4d2ac9b862.png

ChatGPT 显然回答错了。正确答案应该是 20 辆。

那这时候怎么办呢?上边没有经过任何训练,就直接让 ChatGPT 回答,属于零样本思维链。那我们给它一个少量样本,训练几个例子,训练训练它,让它认识到自己的错误,再回答就能回答正确了。

比如:

小树林里有 15 颗树。工人第一天种了 6 颗树。第二天种树的数量与第一天一样。那现在一共有多少树呢?

d62bf8294bcf2fe370fe1545356c93be.png

从结果当中,我们可以看出,ChatGPT 已经可以很好得识别这种逻辑了。经过这次训练,回过头去,再让 ChatGPT 回答刚才的问题。你看看它能回答正确吗?

1e7d7b8af527b6e2046248415ee6bd40.png

你看,答案是不是正确了呢?

对于一些复杂的推理过程,我们一般就可以使用少样本思维链提示技术来帮助我们更好的推理。比如:在书写一些具有上下文逻辑推理和复杂计算的时候,这种方法就非常有效。

以上就是来自于我的知识星球「AIGC 掘金研习社」的文章。

不信,我们可以试一试。

今天 OpenAI 推出了自己最新的模型,GPT-4o mini,要全面替代老去的 GPT-3.5 ,所以,从今天开始,免费用户可以体验这个 GPT-4o mini 新模型了。

我就用这个新模型来测试一下。

7cdf71fdf64f56febd5252f792acc2d4.png

我换个方式采用思维链提示方法。

aa8427a52e95ffbbe09cd6bdd240f212.png

我们换个国产 AI 大模型吧,试一试豆包。

596cbabf0c7063c0157e06d5c4a818ef.png

你看,豆包一开始就给出了错误答案,但是分析过程是正确的,这特别像人的思考方式,对于看似简单的问题喜欢先抢答,给答案,然后再思考,这像不像一个盲目冲动的小伙子。

换成思维链提示,它会先分析,再给出答案。思维链就是让 AI 学会冷静。

63a30976f4d31439546f40f4c1a5f060.png

通过这两个案例对比,你就会发现 AI 的思考方式真的是特别像人的大脑,容易被情绪脑,快思考的方式控制,不喜欢慢思考。

好了,如果你想学习如何使用 AI 大模型,建议大家加入我的知识星球「AIGC 掘金研习社」,里面分享了很多 AI 大模型的教程。

现在绝对是最便宜的时候,给一个 50 元优惠券,只需要 49 元,就可以享受我一年的服务。

已经更新了近 200 篇文章了。且持续更新!

我这个星球,目前更新的内容包含了国产 AI 的各种教程、AI 绘画的教程、AI 视频的教程、AI 音乐制作的教程,包括 AI 可以落地的各种场景和玩法,当然了,也包括副业,都是干货。

eba8bcba0cac73e01e565058a3abb8a3.jpeg

ba7930dd4fe4d3b302d7ec934f3a1392.jpeg

2a9aa06e9bdea03f353bb28ebcc427ec.jpeg

42846df4b202e42477d3676d78f6e55a.jpeg

点击下方公众号卡片,关注我

在公众号对话框,回复关键字 “1024”

有惊喜

3c6b5fdaf2ad8d0f8a2e0b88f9ce2d1c.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值