阿里版 ChatGPT 突然官宣!我们用 16 个提问,火速进行了测评……

3fd58cf3db8603951ab1076cadddbf59.gif

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

平地一声雷!今天中午阿里版类 ChatGPT 「通义千问」突然官宣:

29d77538487b5f1126ca907fa6494ac8.png

没错,就这 3 行简短介绍 + 1 个官网地址,再无其他“剧透”。

好在,CSDN 有幸拿到了「通义千问」的第一批内测邀请码!既能第一时间体验这神秘的「通义千问」,那就让我们一同看看:这个阿里版 ChatGPT,它的水平究竟如何?

5dda92903ee180e61bfe6a01a11b9e55.png

e4664c4984cd353ce085d6d85ffaa109.png

自我介绍

首先,让「通义千问」来个官方的自我介绍:介绍一下你自己吧。

1a2c1594cbd0482cff45fb4390f17743.png

相信许多人都好奇「通义千问」的优势何在,那就让它自己回答:你与其他大规模语言模型相比,有什么优点?

f6d5cbc464c13f5b343f28171aa6c333.png

有了初步了解后,那么接下来就让我们步入正题:围绕文学创作、数理逻辑推算、中文理解、代码生成这四个角度,实测「通义千问」的对话水平。(注:因同是“国产版 ChatGPT”,所以本次部分提问内容也参考了上次评测「文心一言」的题目。)

推荐阅读:《文心一言 vs ChatGPT!相同 10 问,结果出乎意料》

5250310b0cb558935ef5b8a5bb573dbc.png

代码生成

ChatGPT 能成为程序员的“辅助神器”,并成功“出圈”的最主要原因之一就是其出色的代码生成能力。因而,本次对「通义千问」的测评我们也先从这方面开始。

先来个简单的:用 Python 实现冒泡排序。

bf7c71adbf7fd86154d7cff2f4d33a7d.png

提问:请写代码解决"把 abcd...s 共 19 个字母组成的序列重复拼接 106 次,得到长度为 2014 的串。

b9395a4c0319c7021dedd42f3f2104c9.png

接着:使用函数递归的方法打印斐波那契数列的前 n 个数:0 1 1 2 3 5 8 13 21 34 ……, 找出正确的选项。

9bb399a0fa16bd87721047a2a6468011.png

再提问:请写一个使用逻辑回归模型判断用户更喜欢通义千问还是 ChatGPT 的训练代码。

1d9645cd5ada0dc849e091ce0eec579c.png

52eeccaa2cc799c773ac2c63b1558ce4.png

2d87385fb9a7fb28304b322556b4806d.png

继续:请用 C 语言,使用动态分配内存的方式,模拟 C++ 中 Vector 容器,实现动态数组的构建。

aacffe4dbafd011448607957bf9bf1b7.png

987a74a8b60f076cad82a68b5ed2f704.png

英文提问:“Using Python to Define a class named Vector to simulate the C++ Vector container and implement dynamic array construction using dynamic memory allocation.”

5a5153deeeb7bca5ad6a3e28db7c5a3a.png

对于以上「通义千问」生成的代码,我们咨询了 CSDN-AI 团队研发总监进行评价:

“阿里云的模型对于随机抽取的常见代码片需求,基本能理解需求,生成合适的代码。能区分生成代码对指定语言的需求。能区分中英文问题输入。简单的冒泡排序和领域特定的逻辑回归代码,都能生成合适的代码,总体表现不错。在理解代码需求的推理能力上,则还有待加强(那个字母的题)。”

9bb521390e220bdd981bf559c5332214.png

文学创作

提问:龟兔赛跑的结局是什么?如果要续写这个故事,可以有哪些角度? 

6cb24c6cd561f46abd18577597f08f92.png

从「通义千问」给出的回答来看,它能正确给出简单故事的结局,对于续写角度的建议也较为全面。

38b4f2f6c3130273a0f22aeed043cafe.png

数理逻辑推算

提问:一个笼子里有 9 个头,30 只脚,应有多少只鸡,多少只免子?

6b51c2a1bd6232660e6ae0ddd9a41b72.png

面对经典的鸡兔同笼问题,「通义千问」在得出正确答案的同时,解答过程言简意赅。

提问:7 年前,妈妈年龄是儿子的 6 倍,儿子今年 12 岁,妈妈今年多少岁?

1dedd611770895591ceb9bff1707f4cb.png

解答这道小学奥数应用题,「通义千问」的表现也可圈可点。

提问:某厂一车间有 64 人,二车间有 56 人,现因工作需要,要求第一车间人数是第二车间人数的一半,问需从第一车间调多少人到第二车间?(列方程解答)

0f97ad3277620cfd8f27e1fb5a618190.png

不过,对于这道上次「文心一言」没答出的初中数学应用题,「通义千问」也出了点问题:方程是列了,但少了个将 56+x 括在一起的括号。看来在较为复杂的逻辑推算上,“国产版 ChatGPT”还有待加强。

df1f216c7c679e00fd63ab8f26bcfd1d.png

中文理解

提问:“洛阳纸贵”具体是什么意思?

6376e462d48af5a05d7aa48880cc6677.png

提问:京剧中的生、 旦 、净、丑分别指什么?

dd559cf0e8632a37c4278b03b5ec5c76.png

在中文理解上,「通义千问」的回答虽然比较简短,但大体是正确的。

a293ce98c5233755adcf6ecd6749c2a9.png

再闲聊一会儿

与上次测评「文心一言」一样,最后我们也来看看「通义千问」的闲聊水平如何。

提问:我有点饿,请你推荐一道成本低于 30 元(人民币)的菜及其做法?

ff987a1105ec0f0d612b47dc7cce2ac3.png

很好很贴心,连食材单位都很详细,手残党必备。

提问:你的出现会对程序员产生什么影响?是否会取代一部分程序员?

198b97447166d9adbd85cbc5f414d050.png

与 「文心一言」和 ChatGPT 相似,「通义千问」对于这个问题的解答也很客观中立。

至此,本次 CSDN 对于「通义千问」的测试就到此结束了。那么通过这些 Q&A,你对这个阿里版类 ChatGPT「通义千问」的评价如何呢?

70336c0896fa46171fd96476151fade1.gif

 
 
☞Google 搜索引擎将加入 AI 聊天功能;澳洲地方市长或就诽谤信息起诉 ChatGPT;Swift 5.8 发布|极客头条
☞C++ 增幅一骑绝尘,“黑马” Zig 闯入前 50 名!TIOBE 4 月榜单发布
☞震动硅谷!43 岁知名技术大佬当街遇刺身亡,马斯克怒批暴力犯罪

bca72088ad718219d6f982acea10f58a.jpeg

  • 45
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 59
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 59
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值