目录
前言
最近,在使用阿里开发的通义灵码大模型时,我萌生了一个想法:考虑到通义灵码会持续进化升级,它是否会与Qwen(阿里云的预训练语言模型)的更新保持同步呢?带着好奇,我尝试提出了一些问题来测试,结果通义灵码的反馈相当出色。这激发了我进一步的兴趣,决定组织一场“智能对话模型比拼”,参赛者阵容包括:通义灵码、通义千问2.5的网页版本、讯飞星火的网页版本,以及OpenAI的两大热门——ChatGPT4和ChatGPT3.5。
本次对比从网上寻找了5个问题测试
问题一
问:
有100斤土豆,含水量是99%,经过暴晒后含水量变成98%,请问此时土豆有多少斤?
答:
通义千问(正确)
通义灵码(正确)
星火(正确)
这里虽然星火的最后回答正确了,但是中间却回答不好,不过还是纠正回来了
ChatGPT4(正确)
ChatGPT3.5(错误)
问题二
问:
1个猎人向南走了一英里,再向东走了一英里,然后向北走了一英里,最终回到了出发点。他看到一只熊并开枪打死了它。这只熊是什么颜色?
答:
通义千问(正确)
通义灵码(正确)
星火(正确)
ChatGPT4(正确)
ChatGPT3.5(错误)
问题三
问:
1.他怀孕的时候才3岁。
2.她怀孕的时候已经40岁了。
3.火车起飞时间是25点32分。
4. 离地面5米高的树枝上有一个水果,小明够不着,他搬来1个50CM高的凳子,站在凳子上摘到了水果。
上面4句话有问题吗?
答:
通义千问(合理)
通义灵码(合理)
星火(合理)
ChatGPT4(合理)
ChatGPT3.5(合理)
问题四
问:
有七个排成一列的数,它们的平均数是 30,前三个数的平均数是28,后五个数的平均数是33。求第三个数。
答:
通义千问
通义灵码(正确)
星火(正确)
ChatGPT4(正确)
ChatGPT3.5(第二次正确)
问题五
问:
5,5,5,1这4个数字,在中间添加四则运算符号(+-*/)和括号,在所有的可能方案中,找出一个方案,让计算结果等于24.
答:
通义千问(尝试三次才正确)
通义灵码(正确)
星火(正确)
ChatGPT4(正确)
ChatGPT3.5(错误)
分析评估
通过上面的对比分析,还是可以写发现几个现象的:
1、通义灵码的对话效果相当出色
2、国产大模型的能力可能以及达到甚至超过ChatGPT3.5,但是与ChatGPT4有一些差距
3、在博主对比通义千问和通义灵码时发现,灵码的输出速度和响应都比网页版的千问好,博主表示好奇与不解。。。