国产AI大模型哪家强？从投资者角度简单横评5款大模型！

最新推荐文章于 2024-06-22 16:44:14 发布

AI大模型_学习君

最新推荐文章于 2024-06-22 16:44:14 发布

阅读量792

点赞数 22

文章标签：人工智能语言模型自然语言处理 ai 大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python12345678_/article/details/139527236

版权

前言01

国产AI大模型哪家强？

我平时主要使用“腾讯元宝、Kimi”这2款AI大模型，对于其他国产知名AI大模型的表现，我同样充满好奇。

本次从个人投资者的角度，结合非控股子公司的问题，来测试各AI大模型的实力。本次测试选择了目前知名度比较高的5款产品：百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问\、腾讯的腾讯元宝、月之暗面的Kimi。

在评估不同的大型模型时，对每一个测试细项进行打分（满分:10分，总分50分）。如果某款大模型在某个测试项中不符合要求，将根据表现进行扣分。

由于评测和评分过程中存在主观因素，因此评\分仅供参考。为了让大家更快速地了解评测结果，先透露一下总体得分情况，见下图：

具体为什么最终是这个分数？得分项、丢分项在哪里？我们一起往下看吧。

语言理解能力02

国产AI大模型哪家强？

AI 大模型的本质其实就是大语言模型，因此语言理解可以说是影响各种大模型产品体验的基础要素。这里先测试上面四款产品对中文语意的理解能力。首先用经典的一词多意的段子来考验大模型们：

问题：“茅台”除了指代茅台酒品牌，还有哪些其他含义？请列举至少三个。

腾讯元宝

Kimi

通义千问

文心一言

讯飞星火

综上，从回答数量看，腾讯元宝、文心一言均是仅回答了3个解释，回答数量最多是讯飞星火8个、Kimi 6个。

从引用资料看，腾讯元宝在引用10篇资料的情况下，还会在底部推荐公众号相关内容；通义千问参考了6篇资料；讯飞星火参考了5篇资料。小结如下：

知识丰富性03

国产AI大模型哪家强？

问题：洋河的主要产品线有哪些？请简述各自的特点和市场定位。

1、腾讯元宝

根据问题有针对性地从“主要产品线”、“各产品线特点”、“各产品线市场定位”3个角度进行阐述。描述准确度也不错，阐述也更全面，提到了梨花村、贵酒、双沟系列的产品，但少了红酒系列。

下滑查看更多

2、Kimi

相对于腾讯元宝，对“洋河蓝色经典”的阐述要详细一些：把蓝色经典分为“海之蓝、天之蓝、梦之蓝、梦之蓝手工班系列”进行逐一描述。还提到了星得斯红酒，但该红酒并非主要在国际市场上销售。

其余不足之处：没有提到贵酒、梨花村产品线；对于双沟的描述凌乱；对于问题的回答不全面，如洋河大曲定位情况并未提及。

3、讯飞星火

对于产品线的梳理不够全面，仅提到了洋河蓝色经典、洋河大曲。最后提到的“洋河绝世风华”产品，洋河官网并未查到、印象中也没有该款产品。

问题回答上，并未提及各产品线的市场定位，回答有所欠缺。

4、文心一言

首先从问题回答上看，都有提及产品线、特点、定位。但给出的产品线不够全面，仅提及了蓝色经典、洋河大曲、洋河特曲。

错误点也挺多，下图可见AI把洋河大曲、洋河特曲描述为“定位于中端市场”；还出现了“洋河清香系列”，洋河不是浓香型吗？百度也没看到有“洋河清香系列”。

5、通义千问

对产品线的梳理也是不够全面，缺乏了“红酒、贵酒、梨花村”系列，仅写了“其他特色产品线”，并未过多展开。

6、小结

情境分析04

国产AI大模型哪家强？

问题：为分众传媒在面对新媒体竞争和市场多元化趋势时，提出战略建议，并分析预期的市场反应。

腾讯元宝：除了大家都提到的数字化、AI技术投入，还提到加大海外市场的拓展力度。其他的建议及预期市场反应回答得中规中矩，个人感觉这题回答得没有通义千问、讯飞星火、Kimi全面、准确。

腾讯元宝

文心一言

讯飞星火相比于通义千问的回答，要多出3条“个性化和定制化服务、关注用户体验、合作与联盟”，其余4点建议均有所共同点。

讯飞星火

Kimi给出的建议有6条，回答的相关度也比较紧密。相比于讯飞、通义，还提到了“海外市场、品牌合作”。回答的表现也有不错的参考建议。

Kimi

通义千问

小结：

观点论证05

国产AI大模型哪家强？

问题：在讨论腾讯在游戏产业的竞争地位时，有人认为“腾讯的游戏业务过于依赖中国市场”，请提供数据和案例支持或反驳这一观点。

腾讯元宝观点为“反驳”，提供的数据是23年国际市场游戏收入情况，用3款游戏表现和Supercell的游戏进行的案例印证观点。

腾讯元宝

Kimi的观点是“反驳”，提供的数据是23年国际市场游戏收入情况。从“国际市场产品表现、全国市场布局、海外市场增长策略、海外市场品牌建设”等角度，印证观点。Kimi相比于腾讯元宝的阐述要详细不少。

Kimi

文心一言用到的是24年一季报的数据。相较于Kimi和元宝，文心一言在观点论证时，分别提出“支持、反驳观点的数据和案例”的阐述，最终通过归纳结论得出“反驳”的观点。

不足之处：如下图提到“根据参考文章1/2/3”，但我并未找到所参考的文章链接在哪里。

文心一言

讯飞星火持“反驳”观点，引用了腾讯23年国内外市场游戏收入、热门游戏数据，在数据引用上表现较为出色。

在案例支持上阐述较为全面，不仅提及了国际市场情况、全球化战略布局；还提到了国内市场热门游戏、新游戏推出表现。但案例着重于描述国内市场情况，表现没有Kimi好。

讯飞星火

通义千问持“反驳”观点。回答的亮点：提到了“国际市场布局与收购”，并给出了相应的持股数据。足之处，海外游戏收入的数据未能抓取，对于腾讯财报的数据引用几乎为0。

通义千问

小结：

内容生成能力06

国产AI大模型哪家强？

问题：请写一份500字以内的古井贡酒2023年报分析，要有具体的数据支撑且涵盖以下内容：1、营收和利润概览；2、白酒业务情况（要注明产品占比）；3、近5年销售费用情况。

Kimi

Kimi：回答该问题时，Kimi显示:“无法访问实时的数据库或外部数据源，因此无法提供古井贡酒2023年的具体营收、利润和销售费用等数据。不过，我可以提供一个基于假设数据的分析报告模板，您可以根据实际数据进行填充和调整。”

如上图所示，具体数据都是用xx进行代替。

腾讯元宝

腾讯元宝：*引用的数据都是错的*：1）在营收和利润概览上，元宝用的是2022年报数据。正确数据见下图：

2）在产品占比中，根据个人统计，年份原浆占白酒营收79%，古井贡酒占10%，“黄鹤楼及其他”占11%（注：23年不再单独展示黄鹤楼数据）。

但元宝描述为：年份原浆系列占比达到70%左右；古井贡酒系列和黄鹤楼系列分别占比约20%和5%。偏差较大。

3）错误3:“2023年，公司销售费用约为36亿元，同比增长20%左右”。如下图报告所示，费用为54亿元。

出乎意料的是，文心一言数据准确度很高。营收利润、白酒营收占比、年份原浆的数据都是正确的。但23年销售费用是错误的。

文心一言

“讯飞星火”和“通义千问”的数据错误有点多：营收利润数据、产品营收占比、销售费用数据，全都是错的。

讯飞星火

通义千问

小结：

总结07

国产AI大模型哪家强？

各大模型在各个方面都有一定的优势和不足，根据前面的5大能力评测，得出总分如下：Kimi分数37；腾讯元宝36；讯飞星火35；通义千问34；文心一言33。

1、Kimi

优点：

1）语言理解能力较强，能够准确理解中文语意。

2）知识丰富性较好，对于洋河的主要产品线及其特点和市场定位有较全面的描述。

3）情境分析能力较强，能够给出相关度较高的建议。

提升空间：

1）内容生成能力有待提高，例如在古井贡酒2023年报分析中，由于无法访问实时数据库，只能提供基于假设数据的分析报告模板。

2、腾讯元宝

优点：1）语言理解能力较强，能够准确理解中文语意。2）知识丰富性较好，对于洋河的主要产品线及其特点和市场定位有较全面的描述。

提升空间：1）内容生成能力有待提高，例如在古井贡酒2023年报分析中，引用的数据错误较多。2）在情境分析方面，给出的建议及预期市场反应相对较弱。

3、讯飞星火

优点：1）语言理解能力较好，能够理解中文语意。2）情景分析能力强，给出的建议和预期市场反应相对较全面。

提升空间：1）知识丰富性有待提高，例如在洋河的主要产品线描述中，遗漏了一些重要产品线。2）内容生成能力需要加强，例如在古井贡酒2023年报分析中，数据错误较多。

4、通义千问

优点： 1）观点论证能力具有独特优势，尤其是在国际市场布局与收购方面的讨论；2）语言理解能力较好；

提升空间：

1）知识丰富性有待提高，例如在洋河的主要产品线描述中，遗漏了一些重要产品线。

2）数据准确度还需加强，例如在古井贡酒2023年报分析中，错误较多。

3）在某些情况下，对于问题的回答不够全面。

5、文心一言

优点：1）语言理解能力较好，能够理解中文语意。2）内容生成能力较强，例如在古井贡酒2023年报分析中，数据准确度较高。

提升空间：

1）知识丰富性有待提高，例如在洋河的主要产品线描述中，遗漏了一些重要产品线。

2）观点论证能力需要加强，例如在讨论腾讯游戏情况时，给出的数据和案例支持不够充分。

6、综上

由于本次横评的问题样本数量有限，得出的评分和结论可能无法完全覆盖所有场景和用户需求。在实际使用过程中，每个人对AI的体验和需求可能会有所不同，因此上述评分仅供参考。在选择适合自己的AI时，可以考虑以下几个方面：

1）个人需求：首先要明确自己使用AI大模型的主要目的，是为了获取信息、解决问题、提高工作效率还是娱乐休闲。不同的需求可能导致对AI大模型的不同偏好。

2）使用场景：考虑自己在何种场景下使用AI大模型，如在线聊天、写作辅助、数据分析等。不同场景可能需要不同类型的AI大模型。

3）交互方式：根据自己的使用习惯，选择适合自己的交互方式，如文本输入、语音输入等。

4）模型特点：了解各个AI大模型的特点，如语言理解能力、知识丰富性、情境分析能力、观点论证能力和内容生成能力等，选择在这些方面表现较好的模型。

5）用户体验：关注AI大模型的用户体验，如响应速度、界面设计、易用性等。良好的用户体验可以提高使用效率和满意度。

希望大家能够在实际使用过程中，根据自己的需求和感受，选择最适合自己的AI大模型。同时，我们也期待各大AI大模型在未来不断优化和完善，为用户提供更加优质的服务。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AI大模型_学习君

关注

22
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
国产AI大模型哪家强？从投资者角度简单横评5款大模型！

国产AI大模型哪家强？我平时主要使用“腾讯元宝、Kimi”这2款AI大模型，对于其他国产知名AI大模型的表现，我同样充满好奇。本次从个人投资者的角度，结合非控股子公司的问题，来测试各AI大模型的实力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。