前言
最近国产大模型KIMI爆了大部分人应该都知道了,从我个人的感受来看这次KIMI爆了我不是从技术领域接触到的,而是从各种金融领域接触到的。目前国内大模型可以说是百模大战,前几年新能源大战,今年资本割完韭菜后留给我们的是一家家倒闭或者即将要倒闭的车企,今年有一句话听了让人非常的无奈:"如果前几年你买了房子,又买了车子,你不仅要担心你的房子什么时候会爆雷还要担心你的车子什么时候会爆雷"。过几年大模型爆雷注定是不可避免不的,想想当年火爆的OFO到现在200多块钱的押金还没退给我。每次风口过后资本割完韭菜留给我们的都是一地鸡毛,所以我们一定要有自己的判断力,真正国货之光我们要去支持,那些套壳只为玩资本游戏的产品我们千万不要跟风,不要理会它就好了。关于KIMI在资本市场已经火了,甚至还产生了KIMI概念股。那么KIMI到底怎么样?听别人说1000遍不如自己实际用一下,而且国产是开箱即用,比国外的使用门槛低多了。这次我们也不和外国的对比,也不和收费的对比,我们就和免费的文心一言和通义千问对比。
在此申明:本文6道题目为本人原创,在本文发表前网上是没有的,测试结果只能代表这三家大模型在这六道题目上的好坏,不能全面代表这三家大模型整体的优劣程度。
问题一:我今天陪女朋友去杭州西湖游玩应该穿什么衣服
KIMI
添加图片注释,不超过 140 字(可选)
文心一言
添加图片注释,不超过 140 字(可选)
通义千问
添加图片注释,不超过 140 字(可选)
对比
添加图片注释,不超过 140 字(可选)
今天西湖边实际天气实拍
首先我们看一下杭州西湖今天的天气,温度是18-28度,多云,15点10%概率有雨,空气有点污染,接下来我们对比三家AI给出的答案:
- 通义千问:最拉垮,主要是没能获取今天杭州西湖的天气,给出的答案只是根据历史经验,所以没有什么参考价值;
- 文心一言:给出了杭州西湖的天气,包括气温、风力、空气质量为轻度污染都完全符合实际情况,而且建议结果分为1、2、3比较有条理,还对衣服的颜色给出来具体的配色,可以说非常好;
- KIMI:先从网上找到了三份关于杭州天气的网页,然后根据网页内容给出建议,只不过它所查询的天气并不是今天3月24号的,所以给出的答案也就有问题了,最大错误就是空气质量,它给出的是空气质量很好,实际情况是有点污染的,其次结果也没有百度文心一言有条理,对衣服的颜色也没有给出具体的配色,可以看出在这个问题上KIMI是比文心一言差不少了。
小结
文心一言>KIMI>通义千问
问题二:我和老婆户口在杭州,有三个娃,请问今天我在杭州西湖区可以买几套二手房?
KIMI
添加图片注释,不超过 140 字(可选)
文心一言
添加图片注释,不超过 140 字(可选)
通义千问
添加图片注释,不超过 140 字(可选)
对比
杭州在3月14日取消了二手房限购。
- 通义千问:最拉垮的还是通义千问题,给出政策还是2022年5月17日的,也没给出具体可以购买几套房;
- KIMI:唯一给出正确答案。KIMI这得益于他是实时从网上搜索的,而且正确搜索到了杭州取消二手房限购的网页,所以给出了正确的答案。
- 文心一言:应该没有更新杭州3月14取消二手房限购的内容,所以给出是的3月14日之前的答案,回答是错误的。
小结
KIMI>文心一言>通义千问
问题三、河北邯郸3名不满十四周岁初中生杀害同班同学并掩埋,请问这三名初中生在法律上会受到什么惩罚?
KIMI
添加图片注释,不超过 140 字(可选)
文心一言
添加图片注释,不超过 140 字(可选)
通义千问
添加图片注释,不超过 140 字(可选)
对比
法律问题应该是送分题。
- 通义千问:还是最拉垮,没有给出答案;
- 文心一言:和KIMI回答结果是一样的,但是在细节还是文心一言更强一点,给了具体的法律依据是《刑法》第十七条;
- KIMI:回答的和文心一言基本差不多。
小结
文心一言>KIMI>通义千问
问题四、使用JAVA代码合成部门树
注意这里最后一条是故意造的错误数据。
KIMI
文心一言
通义千问
对比
- 通义千问:代码能正确执行,从写法上面来看通义千问代码量最少,还用了lambda表达示,看起来更高级,在代码生成领域终于胜出了;
- KIMI:这一题只有KIMI给出答案是错的,Department少了pid;
- 文心一言:代码能正确执行,没有通义千问生成的好。
小结
通义千问>文心一言>KIMI
问题五、使用JAVA处理数据
帮我把这两条部门数据去除根组织和部门ID,将部门名用-分隔输出,请给出基于JDK8的JAVA代码 EveryOne#根组织/50#侠客集团/96332#工作机动/103965#cy专属组织/103967#策划部门十一个非常厉害的部门你知道吗 EveryOne#根组织/50#侠客集团/96332#工作机动/103965#cy专属组织/104014#技术部门懂技术会生活的好部门呢你想来吗
KIMI
添加图片注释,不超过 140 字(可选)
运行结果:
文心一言
添加图片注释,不超过 140 字(可选)
运行结果:
通义千问
添加图片注释,不超过 140 字(可选)
运行结果:
对比
- 通义千问:多去除了“侠客集团”和工作动机部门;
- 文心一言:只是没有去除根组织,其它都是正确了,表现最好;
- KIMI:输出错误,没有去除部门ID,表现最差。
小结
文心一言>通义千问>KIMI
问题六、多线程图片下载
KIMI
文心一言
通义千问
对比
- 结果来看KIMI代码有错误,无法运行,文心一言少了一个异常抛出,修改可以运行下载,通义千问能正常运行下载,处理的逻辑也非常好;
- 目录不存在处理:KIMI没有考虑下载目录C://img不存在报错问题,文心一言和通义千问都考虑了;
- 文件名重复问题:KIMI使用后缀加(N),文心一言是使用文件名MD5,通义千问使用时间戳。KIMI思路最正确可是写法错了,文心一言使用文件名MD5思路就错了,通义千问使用时间虽然不完美,但是是可以解决大部分URL文件名相同问题。
小结
通义千问>文心一言>KIMI
总结
从这六道题目来看KIMI并没有多么的让人惊艳,大体上我们可以得出以下结论:
- 依赖数据源;可能是KIMI自己没有能力收集大量数据和花大价钱买显卡去训练,所以回答结果非常依赖它得到的数据;
- 通用问题依赖搜索引擎;想做通用大模型肯定要有大量数据,KIMI使用实时搜索去获取数据源,再给出结果。目前不知道它使用的是哪家搜索引擎,如果非常依赖搜索引擎那在通用大模型领域可能是硬伤,因为国内搜索引擎老大是谁大家都知道;
- 在代码生成领域不是很成熟;这一点应该不用太担心,国为程序员是第一波接触大模型的人,谁手上还没有几个墙外的产品,根本看不上国内的这些产品;
- “百模大战”中的一员;给我的感觉它只是“百模大战”中的一员,并没有鹤立鸡群,能从“百模大战“中脱颖而出的惊艳。
最后关于它为什么会火起来这个就不得而知了,不过大家可以思考一下去年火起来的淄博烧烤、过年期间火起来的哈尔滨、最近正在火的天水麻辣烫,表明上看谁能火起来是门玄学,不过如果真的去深挖这些现象级火起来网红城市,你会发现玄学后面都是人(资本)在操控。