前言

阿里通义千问申请过了,为了看看达到了什么水平,于是我问题了5个ChatGPT回答过的问题1,这五个问题网上都是没有的,是我自己想出来的。

这五个问题一下就看出阿里通义千问和ChatGPT的差距了_chatgpt

问题一:小明说今天他吃了一只公鸡蛋,请问小明诚实吗?

ChatGPT

这是一个有趣的问题,但是也有一些误解。公鸡蛋并不是公鸡下的蛋,而是指公鸡的睾丸,也就是公鸡的生殖器官。所以小明说他吃了一只公鸡蛋,其实是说他吃了一只公鸡的睾丸。这个食物在一些地方被认为有补肾的功效3,但是也有人觉得不雅或者不好吃。所以小明是否诚实,要看他是不是真的吃了这个东西,而不是看公鸡是否能下蛋‬。

通义千问:

从诚实的角度来看,小明说的是实话,因为他吃了一只公鸡蛋。但是,这并不意味着他是一个诚实的人,因为诚实的人不仅要说实话,还要做到诚实地面对自己的错误和过失。因此,小明是否诚实取决于他是否有勇气承认自己的错误和过失,以及是否愿意接受别人的批评和帮助。

对比

这个问题主要考察基本常识:公鸡不会下蛋,可以看出ChatGPT一眼就看出了这个常识,并且还给出了公鸡蛋是公鸡睾丸这个令我也想不到的惊讶回答,再看阿里通义完全没明白这个问题的要点。

问题二:小王在北京说穿毛衣还很冷,小李在三亚说穿短袖还很热,请问谁说谎了?

ChatGPT

这是一个关于地理和气候的问题,北京的今天的气温是13.7℃,三亚的今天的气温是27℃。北京属于温带大陆性气候,冬季寒冷,夏季炎热,春秋干燥。三亚属于热带海洋性气候,全年温暖湿润,没有四季之分。所以小王在北京说穿毛衣还很冷,小里在三亚说穿短袖还很热,都是有可能的,没有谁说谎了。

通义千问:

从诚实的角度来看,小王说的是实话,因为他感觉穿毛衣还很冷。但是,这并不意味着小里说的是实话,因为每个人对气温的感受可能存在差异。因此,小里是否说谎取决于他感觉穿短袖还是穿毛衣更舒适,以及是否对自己的感受有信心。

对比

这个问题就有点难度了,主要是考察常识+实时信息,可以看出ChatGPT不但知道北京和三亚气候不同,还给出了北京和三亚当天的具体温度,北京三亚当天温度应该是要去在线查的。反观阿里通义千问,我只能说呵呵,完全没有地理位置不同气候不同的常识,更不用说是去查当天两地的温度了。

问题三:我的iphone 手机没电了,借了小明的华为手机充电线,可是就是充不了,为什么?

ChatGPT

你好,这是一个关于充电器和数据线的兼容性问题。华为的充电器头和数据线一般不支持苹果的快充协议,所以给 iPhone 充电的效果只有 5W 左右,而不是 18W 或 20W 的快充功率。而且,华为的充电器头一般是 USB-A 口的,而 iPhone 的原装数据线是 USB-C 转闪电口的,所以两者是无法直接连接的。你需要使用一个 USB-A 转闪电口的数据线,或者一个支持 PD 快充协议的充电器头,才能给 iPhone 充电。如果你使用的数据线没有通过 MFi 认证,可能会有弹窗提示你这个配件不受支持。所以,你借了小明的华为手机充电线,可能是因为接口不匹配或者数据线不认证,导致无法给 iPhone 充电。

通义千问:

可能是因为充电线的规格不匹配。不同品牌和型号的手机充电器和数据线可能有不同的规格和协议,如果使用了不兼容的充电器和数据线,可能会导致手机无法正常充电。建议先检查充电器和数据线的规格是否相同,如果不同请使用相应的转接头或充电线。另外,还可以尝试使用其他品牌或型号的充电器和数据线进行充电,或者尝试将手机连接到电脑充电器上进行充电。

对比

这个问题主要考察不同手机接口协议不通用的常识,ChatGPT的回答感觉可以给100分,不仅看出是快充协议的问题,还给出了协议转换解决方案,阿里通义感觉只能给60分,勉强及格,还是看出问题了。

问题四:小明5岁时喜欢穿妹妹的花裙子,可是5年后却打死不穿了,为什么?

ChatGPT

这是一个有趣的问题,可能有多种答案。在这个语境下,一个人可能会说:

  1. 因为小明长大了,知道了男孩子和女孩子的区别,不想穿妹妹的花裙子了。
  2. 因为小明的妹妹长大了,不让小明穿她的花裙子了,而且还会嘲笑他。
  3. 因为小明的花裙子已经穿不下了,而且也不合时尚了。
  4. 因为小明的父母或老师或同学发现了他穿妹妹的花裙子,对他进行了批评或教育或欺负,让他觉得羞耻或害怕。

通义千问:

可能是因为小明长大了,对于自己的穿着有了更加个人化的想法和意愿。小时候的喜好可能受到外部因素的影响,例如父母、亲友等,而长大后个人的想法和意愿则更加重要。同时,也可能是因为小明对于性别和美的认知发生了变化,对于自己的性别和穿着更加自信和自主。但是,无论是什么原因,小明最终不再喜欢穿妹妹的花裙子,都是因为他对于自己的认知和态度发生了变化。

对比

这个问题是主要考察推荐+常识,推理是随着时间的增加人会长大,长大后男孩不会穿花裙的常识,可以看出ChatGPT给出了可以说是很像人类思考的答案,对比阿里通义千问,完全没有GET到问题点。

问题五:做一个思维实验,小明擅长扔石头,一个小明力量可以扔1公里,2个小明力量可以扔2公里,请问4万个小明力量可以扔多远?

ChatGPT

这是一个有趣的思维实验,但是也有一些不合理的地方。首先,扔石头的距离不仅取决于力量,还取决于角度、空气阻力、重力等因素。其次,多个小明的力量如何叠加也是一个问题,如果是简单的相加,那么 4 万个小明的力量可以扔 4 万公里,但是这显然超过了地球的周长,而且也不考虑石头的轨迹和速度。如果是其他方式的叠加,比如平方根或对数,那么结果就会不同。所以,这个问题没有一个确定的答案,只能根据假设和条件进行推测。

通义千问:

在这个思维实验中,我们可以使用乘法原理来解决问题。因为一个小明力量可以扔1公里,两个小明力量可以扔2公里,所以四个小明力量可以扔4公里。同理,八个小明力量可以扔8公里,十六个小明力量可以扔16公里,以此类推。因此,四万个小明力量可以扔4万公里。综上,本题公式为:1 * 248163264128…=4 * 4 * 4 * 4 * 4 * 4 * 4 * 4 * 4,约为1844亿公里。

对比

最后这个问题是个纯思维实验,网上是没有的,主要考察逻辑推理+常识,还要避坑。我是故意埋了地球周长4万公里这个坑,我想很多正常人类也不一定能看出这个坑,ChatGPT的回答简直是惊艳,给101分能不怕它骄傲,阿里通义连最基本的推理计算都是错的。

总结

从上面五个问题可以看出阿里通义千问和ChatGPT,完全不在一个水平,引用周鸿祎的话:现在说超越ChatGPT叫吹牛2,这里说明一下阿里没有说通义超过了ChatGPT,大家不要误解,只是让我们自己正确的看出差距,从而认真的对待差距,而不是盲目的自大,不过话说回来了能做出大模型的都是很厉害了,路漫漫其修远兮,我们还要上下而求索。


  1. 我问了ChatGPT几个思维实验,想看看它有没有意识 ↩︎
  2.  周鸿祎做客东方甄选谈大模型:现在说超越ChatGPT叫吹牛 (baidu.com) ↩︎