国内AI争霸:技术巨头们的终极较量

文心一言+通义千问+KIMI+豆包+Deep​Seek   

至2022年AI爆发后,在中国已催生了上千个AI产品。

这些产品涵盖了从头部大厂到高等院校,再到初创企业的广泛阵容。

如:

l大厂:百度文心、阿里通义、腾讯元宝、字节豆包、讯飞星火等

l高校:清华大学、北京大学等

l初创:月之暗面KIMI、深度求索DeepSeek也已崭露头角,推出了独具特色的AI产品。

到这里有个问题就浮现了,应该选择哪个AI,哪个AI适合自己?

这里是清华SuperBench的测评数据

类似这样的测评报告互联网上已经很多,真正哪个合适自己还是自己尝试一下

以下是个人的一些经验分享让大家少走些路,仅供参考一下:

目前在国际上顶端的还是gpt4与claude 3,国内主要就是文心4与清华GLM-4。

在国内选择的话:

l如果花钱的话,可以选择文心一言4.0

l免费AI

¡考虑到综合能力的话可以选择字节的豆包    

¡只考虑文本类的话deepseek也是不错的选择

¡偏搜索引擎类的话秘塔AI、KIMI

前期文心一言3.5的表现的确是很差,可以对比自己之前问的问题,差别是非常大的。之前胡说八道的回答还是比较多的,现在比如增加了联网搜索等功能,可以说文心一言已经迭代级了很多。

这里我选择其中的5个AI产品进行对比

          

一、信息更新程度  

          

以下是具体的对比情况:

问题一  

2024年福建高考录取分数线?

此问题是在2024年06月24日16时26分公布的,问题是在公布后5分钟左右内问的

目前国内关注性最高的应该就是高考分数线公布与填写高考志愿了。目前已经有几个省公布了高考分数线,刚才看了一下最近2024年06月24日16时26分福建省也公布了分数线,这是福建省教育考试院官方网截图。    

我们来看看几款国内的AI产品的信息更新情况:

文心一言3.5&4.0  

l文心一言3.5

物理类431分,是不对的。

历史类453分,也是不对的,可以看到括号里的说明,它已经找到了正确的文章2分数是正确的,还找到文章3是错误的分数,然而最后AI判断后选择了错误的文章3的结果。

          

l文心一言4.0    

文心一言4.0能给出正确的答案,实时度非常的高。

          

通义千问  

通义千问输出的结果是对的,不但输出的2024年正确的结果,同时还给出了历年的分数线数据。

KIMI  

KIMI没有查询到福建省的高考录取分数线。    

豆包  

豆包也能正确的输出答案,同时也给出了近几年的录取分数线。

DeepSeek  

显然deepseek的知识库和以上的几款AI是不同的,它不是实时的它是截至2023年的知识库。    

问题二  

2024年上海高考录取分数线?

此问题是在2024年06月23日13时42分公布的,问题是在公布后1天后问的

          

看看上海的分数线,公布的比较早是2024年06月23日13时42分公布的,这是上海市教育考试院官方网截图。

只要是知识库是实时的,基本是对的    

          

          

二、图片解析能力  

通过一张网络上流传的比较广的一张图    

这张“不干了”的图片,看看AI们是如何解析它的

文心一言3.5  

文心一言3.5支持上传word、pdf及图片格式的文件,上传图片后它可以解析出图片中木板上刻着“不幹了”字样,但无法给不出图片中描述的是哪些历史人物。    

文心一言4.0  

文心一言4.0也可以识别出木板上的文字,同时进了一步就是把繁体“不幹了”翻译成简体“不干了”。同样也无法给不出图片中描述的是哪些历史人物。

          

    

通义千问  

识别出来的是“不辩了”,识别能力还是不行    

KIMI  

KIMI支持上传pdf、doc、xlsx、ppt、txt、图片等文件,没有识别出木板上的文字

              

豆包  

豆包支持的文件类型:PDF、Docx、xlsx、txt、pptx、csv。所以我把图片放到docx里再上传给豆包。它可以识别出木板上的文字

Copilot  

看完这些后或许得到的结论就是AI只能识别出木板上的文字,推理不出描述的是哪位历史人物,我们来看看微软的Copilot的回答。鲁迅终于出现了。。。。    

              

三、图像生成功能  

生成以下要求的图片:

中国古代女子,女子有几缕青丝垂于耳畔,头上插着一支玉簪,簪头镶嵌着一颗小巧的珍珠,闪烁着温润的光泽。

          

文心一言3.5  

          

文心一言4.0  

    

通义千问  

豆包  

          

生成图片方面个人感觉还是豆包比较符合审美风格

          

              

四、自然语言处理能力  

问题一  

来一份钢丝球炒鸡蛋的做法

一个比较经典的问题,看看AI们的回答

文心一言3.5  

能正确的回答不存在,还过和早期所有的AI产品一样还是会把假设性做法列出来。我记得这个问题的回答进阶是这样的:

l钢丝球炒鸡蛋是道美味的菜,再列出炒钢丝球步骤

l然后就是钢丝球炒鸡蛋是不存在的,再列出假设炒钢丝球步骤

l再然后就是不存在,再列出炒鸡蛋的步骤

文心一言3.5应该处于第二阶段了    

文心一言4.0  

比较正确的回答

通义千问  

比较正确的回答    

KIMI  

比较正确的回答    

豆包  

比较正确的回答    

DeepSeek  

          

比较正确的回答

          

问题二  

汉字里带水字旁边,却与水无关的字

这个问题也是早期AI产品刚出来后就问的一个问题

文心一言3.5  

这是2024年6月问的    

我记得在年初那会问这个问题的回答第一并没有详细的解释,第二也有出现河、瀑之类的字。

说明文心一言3.5已经更新和进步了很多。

          

文心一言4.0  

比较正确    

通义千问  

比较正确

KIMI  

KIMI还是有不少瑕疵的,也出现之前文心一言3.5的河字    

豆包  

比较正确

DeepSeek  

比较正确

          

          

              

五、翻译能力  

想对比一下AI的翻译能力,网友给推荐这个中国式的"意思",我们来看看AI是如何翻译的

把以下内容翻译成英文:

领导:“你这是什么意思?”

阿呆:“没什么意思,意思意思。”

可以看到基本表现都还不错,只不过通义千问的翻译少了点“意思”,其它AI都能表达出那个意思。

          

六、总结  

以上都是一些非专业的对比,只是基于个人的使用体验。当然也有一些机构输出也专业的测试报告。

比如:这份《中文大模型能力评测榜单》综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。    

其实可以看到不同机构输出的报告都有所不同,最终怎么样我们可以自己试试。    

我是栈江湖,如果你喜欢此文章,不要忘记关注+点赞哦!你的支持是我创作的动力。如果你有任何意见或建议,欢迎在下方留言。若转载,请注明文章来源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

栈江湖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值