国产AI大模型哪家强?从投资者角度简单横评5款大模型!

前言01

国产AI大模型哪家强?

图片

我平时主要使用“腾讯元宝、Kimi”这2款AI大模型,对于其他国产知名AI大模型的表现,我同样充满好奇。

本次从个人投资者的角度,结合非控股子公司的问题,来测试各AI大模型的实力。本次测试选择了目前知名度比较高的5款产品:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问\、腾讯的腾讯元宝、月之暗面的Kimi。

图片

在评估不同的大型模型时,对每一个测试细项进行打分(满分:10分,总分50分)。如果某款大模型在某个测试项中不符合要求,将根据表现进行扣分。

由于评测和评分过程中存在主观因素,因此评\分仅供参考。为了让大家更快速地了解评测结果,先透露一下总体得分情况,见下图:

图片

具体为什么最终是这个分数?得分项、丢分项在哪里?我们一起往下看吧。

语言理解能力02

国产AI大模型哪家强?

图片

AI 大模型的本质其实就是大语言模型,因此语言理解可以说是影响各种大模型产品体验的基础要素。这里先测试上面四款产品对中文语意的理解能力。首先用经典的一词多意的段子来考验大模型们:

问题:“茅台”除了指代茅台酒品牌,还有哪些其他含义?请列举至少三个。

图片

腾讯元宝

图片

Kimi

图片

通义千问

图片

文心一言

图片

讯飞星火

综上,从回答数量看,腾讯元宝、文心一言均是仅回答了3个解释,回答数量最多是讯飞星火8个、Kimi 6个。

从引用资料看,腾讯元宝在引用10篇资料的情况下,还会在底部推荐公众号相关内容;通义千问参考了6篇资料;讯飞星火参考了5篇资料。小结如下:

图片

知识丰富性03

国产AI大模型哪家强?

图片

问题:洋河的主要产品线有哪些?请简述各自的特点和市场定位。

1、腾讯元宝

图片

根据问题有针对性地从“主要产品线”、“各产品线特点”、“各产品线市场定位”3个角度进行阐述。描述准确度也不错,阐述也更全面,提到了梨花村、贵酒、双沟系列的产品,但少了红酒系列。

图片

下滑查看更多

2、Kimi

图片

相对于腾讯元宝,对“洋河蓝色经典”的阐述要详细一些:把蓝色经典分为“海之蓝、天之蓝、梦之蓝、梦之蓝手工班系列”进行逐一描述。还提到了星得斯红酒,但该红酒并非主要在国际市场上销售。

其余不足之处:没有提到贵酒、梨花村产品线;对于双沟的描述凌乱;对于问题的回答不全面,如洋河大曲定位情况并未提及。

图片

3、讯飞星火

图片

对于产品线的梳理不够全面,仅提到了洋河蓝色经典、洋河大曲。最后提到的“洋河绝世风华”产品,洋河官网并未查到、印象中也没有该款产品。

问题回答上,并未提及各产品线的市场定位,回答有所欠缺。

图片

4、文心一言

图片

首先从问题回答上看,都有提及产品线、特点、定位。但给出的产品线不够全面,仅提及了蓝色经典、洋河大曲、洋河特曲。

错误点也挺多,下图可见AI把洋河大曲、洋河特曲描述为“定位于中端市场”;还出现了“洋河清香系列”,洋河不是浓香型吗?百度也没看到有“洋河清香系列”。

图片图片

5、通义千问

图片

对产品线的梳理也是不够全面,缺乏了“红酒、贵酒、梨花村”系列,仅写了“其他特色产品线”,并未过多展开。

图片

6、小结

图片

图片

情境分析04

国产AI大模型哪家强?

图片

问题:为分众传媒在面对新媒体竞争和市场多元化趋势时,提出战略建议,并分析预期的市场反应。

腾讯元宝:除了大家都提到的数字化、AI技术投入,还提到加大海外市场的拓展力度。其他的建议及预期市场反应回答得中规中矩,个人感觉这题回答得没有通义千问、讯飞星火、Kimi全面、准确。

图片

腾讯元宝

图片

文心一言

讯飞星火相比于通义千问的回答,要多出3条“个性化和定制化服务、关注用户体验、合作与联盟”,其余4点建议均有所共同点。

图片

讯飞星火

Kimi给出的建议有6条,回答的相关度也比较紧密。相比于讯飞、通义,还提到了“海外市场、品牌合作”。回答的表现也有不错的参考建议。

图片

Kimi

图片

通义千问

小结:

图片

观点论证05

国产AI大模型哪家强?

图片

问题:在讨论腾讯在游戏产业的竞争地位时,有人认为“腾讯的游戏业务过于依赖中国市场”,请提供数据和案例支持或反驳这一观点。

腾讯元宝观点为“反驳”,提供的数据是23年国际市场游戏收入情况,用3款游戏表现和Supercell的游戏进行的案例印证观点。

图片

腾讯元宝

Kimi的观点是“反驳”,提供的数据是23年国际市场游戏收入情况。从“国际市场产品表现、全国市场布局、海外市场增长策略、海外市场品牌建设”等角度,印证观点。Kimi相比于腾讯元宝的阐述要详细不少。

图片

Kimi

文心一言用到的是24年一季报的数据。相较于Kimi和元宝,文心一言在观点论证时,分别提出“支持、反驳观点的数据和案例”的阐述,最终通过归纳结论得出“反驳”的观点。

不足之处:如下图提到“根据参考文章1/2/3”,但我并未找到所参考的文章链接在哪里。

图片

文心一言

讯飞星火持“反驳”观点,引用了腾讯23年国内外市场游戏收入、热门游戏数据,在数据引用上表现较为出色。

在案例支持上阐述较为全面,不仅提及了国际市场情况、全球化战略布局;还提到了国内市场热门游戏、新游戏推出表现。但案例着重于描述国内市场情况,表现没有Kimi好。

图片

讯飞星火

通义千问持“反驳”观点。回答的亮点:提到了“国际市场布局与收购”,并给出了相应的持股数据。足之处,海外游戏收入的数据未能抓取,对于腾讯财报的数据引用几乎为0。

图片

通义千问

小结:

图片

内容生成能力06

国产AI大模型哪家强?

图片

问题:请写一份500字以内的古井贡酒2023年报分析,要有具体的数据支撑且涵盖以下内容:1、营收和利润概览;2、白酒业务情况(要注明产品占比);3、近5年销售费用情况。

图片

Kimi

Kimi:回答该问题时,Kimi显示:“无法访问实时的数据库或外部数据源,因此无法提供古井贡酒2023年的具体营收、利润和销售费用等数据。不过,我可以提供一个基于假设数据的分析报告模板,您可以根据实际数据进行填充和调整。”

如上图所示,具体数据都是用xx进行代替。

图片

腾讯元宝

腾讯元宝:*引用的数据都是错的*:1)在营收和利润概览上,元宝用的是2022年报数据。正确数据见下图:

图片

2)在产品占比中,根据个人统计,年份原浆占白酒营收79%,古井贡酒占10%,“黄鹤楼及其他”占11%(注:23年不再单独展示黄鹤楼数据)。

但元宝描述为:年份原浆系列占比达到70%左右;古井贡酒系列和黄鹤楼系列分别占比约20%和5%。偏差较大。

图片

3)错误3:“2023年,公司销售费用约为36亿元,同比增长20%左右”。如下图报告所示,费用为54亿元。

图片

出乎意料的是,文心一言数据准确度很高。营收利润、白酒营收占比、年份原浆的数据都是正确的。但23年销售费用是错误的。

图片

文心一言

“讯飞星火”和“通义千问”的数据错误有点多:营收利润数据、产品营收占比、销售费用数据,全都是错的

图片

讯飞星火

图片

通义千问

小结:

图片

总结07

国产AI大模型哪家强?

图片

各大模型在各个方面都有一定的优势和不足,根据前面的5大能力评测,得出总分如下:Kimi分数37;腾讯元宝36;讯飞星火35;通义千问34;文心一言33。

图片

1、Kimi

图片

优点:

1)语言理解能力较强,能够准确理解中文语意。

2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

3)情境分析能力较强,能够给出相关度较高的建议。

提升空间:

1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,由于无法访问实时数据库,只能提供基于假设数据的分析报告模板。

2、腾讯元宝

优点:1)语言理解能力较强,能够准确理解中文语意。2)知识丰富性较好,对于洋河的主要产品线及其特点和市场定位有较全面的描述。

提升空间:1)内容生成能力有待提高,例如在古井贡酒2023年报分析中,引用的数据错误较多。2)在情境分析方面,给出的建议及预期市场反应相对较弱。

3、讯飞星火

优点:1)语言理解能力较好,能够理解中文语意。2)情景分析能力强,给出的建议和预期市场反应相对较全面。

提升空间:1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。2)内容生成能力需要加强,例如在古井贡酒2023年报分析中,数据错误较多。

4、通义千问

优点: 1)观点论证能力具有独特优势,尤其是在国际市场布局与收购方面的讨论;2)语言理解能力较好;

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)数据准确度还需加强,例如在古井贡酒2023年报分析中,错误较多。

3)在某些情况下,对于问题的回答不够全面。

5、文心一言

优点:1)语言理解能力较好,能够理解中文语意。2)内容生成能力较强,例如在古井贡酒2023年报分析中,数据准确度较高。

提升空间:

1)知识丰富性有待提高,例如在洋河的主要产品线描述中,遗漏了一些重要产品线。

2)观点论证能力需要加强,例如在讨论腾讯游戏情况时,给出的数据和案例支持不够充分。

6、综上

由于本次横评的问题样本数量有限,得出的评分和结论可能无法完全覆盖所有场景和用户需求。在实际使用过程中,每个人对AI的体验和需求可能会有所不同,因此上述评分仅供参考。在选择适合自己的AI时,可以考虑以下几个方面:

1)个人需求:首先要明确自己使用AI大模型的主要目的,是为了获取信息、解决问题、提高工作效率还是娱乐休闲。不同的需求可能导致对AI大模型的不同偏好。

2)使用场景:考虑自己在何种场景下使用AI大模型,如在线聊天、写作辅助、数据分析等。不同场景可能需要不同类型的AI大模型。

3)交互方式:根据自己的使用习惯,选择适合自己的交互方式,如文本输入、语音输入等。

4)模型特点:了解各个AI大模型的特点,如语言理解能力、知识丰富性、情境分析能力、观点论证能力和内容生成能力等,选择在这些方面表现较好的模型。

5)用户体验:关注AI大模型的用户体验,如响应速度、界面设计、易用性等。良好的用户体验可以提高使用效率和满意度。

希望大家能够在实际使用过程中,根据自己的需求和感受,选择最适合自己的AI大模型。同时,我们也期待各大AI大模型在未来不断优化和完善,为用户提供更加优质的服务。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值