【AIGC】用货拉拉拉不拉拉布拉多的梗调(ce)戏(shi)AI大模型,3.5和4.0的反应差别巨大!

本文通过制造陷阱、推理题、选择题等方式测试百度文心一言大模型3.5和4.0的智能水平,评估其错误辨识、推理、表达和专业领域的表现,揭示测试大模型的六大方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉拉布拉多的梗

1.看看3.5的表现

2.看看4.0的表现

(二)用简单推理调戏大模型

1.看看3.5的表现

2.看看4.0的表现

3.看看3.5的表现

4.看看4.0的表现

(三)用专业知识调戏大模型

1.看看3.5的表现

2.看看4.0的表现

(四)其他调戏问题

1.风寒感冒和风热感冒的区别是什么

2.润色一段文字

3.测试公平性

4.测试智商

5.更多陷阱

二、测试大模型的六大方式

(一)故意制造陷阱,测试错误辨识能力

(二)推理题,测试智商

(三)选择题,测试公平性

(四)润色文字,测试其表达能力

(五)发挥创意,测试其创造性

(六)专业问题,测试其垂直领域的能力


我们每天都听各个媒体说,这个AI有多厉害,那个大模型AIGC又要干掉多少个工种,那么,LLM的智能,到底发展到什么程度了?能通过图灵测试,能过的了普通话考试吗?

(图灵测试等人工智能起源的基础知识,参考我的文章【AI考证笔记】NO.1人工智能的基础概念-CSDN博客

一、调戏LLM大模型

(一)制造陷阱——货拉拉拉不拉拉布拉多的梗

你听过这个段子吗,一个女孩,想让货拉拉的车主,拉她的拉不拉多,车主担心狗在车上拉屎,就问拉的多不多,女孩说不多。

好吧,我们来调戏一下大模型!有兴趣的朋友可以去测试chatGPT3.5和4.0以及4.0 turbo,我这里用访问更容易的百度文心一言的3.5和4.0,来给大家试试!

提示词prompt——

请帮我回答如下的问题:一个女孩想要让货拉拉拉拉不拉多,但是货拉拉车主怕拉布拉多在车上拉的很多,女孩说拉的不多。请问最后货拉拉拉没拉拉不拉多?

1.看看3.5的表现

文心一言3.5的回答是:

根据描述,女孩希望货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上会拉的很多。女孩则表示拉的不多。由于描述中并没有明确货拉拉最后是否拉了拉布拉多,因此无法确定货拉拉最后是否拉拉不拉多。

如图:

这明显是被绕迷糊了啊!

居然无法确定!?完全没有推理能力。

有点失望,于是我切到4.0,看是不是更聪明了一点!

2.看看4.0的表现

文心一言4.0的回答是:

根据题目描述,一个女孩想让货拉拉拉拉不拉多,但货拉拉车主担心拉布拉多在车上拉很多。女孩表示拉的不多。因此,根据这些信息,货拉拉车主可能会接受女孩的请求,拉上不多的拉布拉多。

哈哈,这才对呀!而且用了“可能”,还是很懂人情世故的。

(二)用简单推理调戏大模型

经典问题——树上10只鸟的问题来了。

提示词:你好,树上10只鸟,我用枪打死一只,还剩几只?

1.看看3.5的表现

文心一言3.5的回答是:

在解答这个问题之前,我们首先需要明确一些前提条件。

首先,需要了解的是,这个问题存在多种可能性。

  1. 如果树上的鸟都是聋子,那么开枪的声音并不会吓跑其它的鸟,所以树上还会有10只鸟。
  2. 如果其它鸟没有被吓跑,但是打死的鸟挂在树上没有掉下来,那么树上就会剩下9只鸟。
  3. 如果树上的鸟都是正常的鸟,那么其它的鸟会被开枪的声音吓跑,所以树上只会剩下1只鸟。

因此,根据不同的前提条件,答案可能是10只、9只或1只。这个问题的答案取决于你对问题的理解和你想强调的点。

第1点,关于都是聋子的问题,毕竟有个鸟被打死了,如果玩现实,那么这个鸟就掉地上去了,看来这10只鸟是又聋又瞎啊!10只的答案,还是比较无厘头的。

第2点也不对,活的没跑,死的挂树上,没掉下来,那应该是10只,而不是9只。

第3点,默认被打的鸟会挂在树枝上,别的跑了,这个打鸟的挺背,当然,也是活该了。不过,既然可以挂在树上,那掉下来的情况,也该给分析下。

总之,看着很有道理的样子,实际解释的逻辑有错误。 

2.看看4.0的表现

文心一言4.0的回答是:

分析题意:

    <
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

giszz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值