权威!IDC《中国大模型市场主流产品评估,2024》报告发布

21 篇文章 0 订阅

6月12日,国际数据公司 IDC 发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。

结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。

在这里插入图片描述

这份实测报告不同于以往的评测榜单:

  1. IDC 此次采取实测的方式,成立产品测试团队、邀请外部专家团队,在审核委员会的监督下,保证了评估结果的真实度。
  2. 测试的全面性——涵盖众多厂商。IDC 列出的厂商里,有国外厂商如 OpenAI;国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产品参与了本次评估。
  3. 测试的全面性——测试题目涵盖众多维度。IDC 测试题目分为基础能力和应用能力两个大类共 7 个维度:基础能力包括问答理解类、推理类、创作表达类、数学类、代码类;应用能力主要包含 toC 通用场景类和 toB 特定行业类,每一类单独计分。
    在这里插入图片描述
    图注:IDC 题目类型
    IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。

从 IDC 报告的结果来看:

  • 第一梯队:百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产品;
  • 第二梯队:百川、智谱、昆仑万维;
  • 第三梯队:联汇、云知声、云从科技。

在这里插入图片描述

再细分来看,在 IDC 评测的 7 个维度上:

  • 百度文心大模型在7个维度上都被列为优势厂商,可以说是一位全能选手。
  • 阿里获得 6 项优势维度,排名第二。
  • OpenAI GPT-4商汤 获得 5 项优势维度,排名第三。

在这里插入图片描述

图:IDC 咨询发布的基础大模型产品实测结果

结果显示,百度旗下生成式AI产品文心一言文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。

基础能力评测

在基础能力评测中,大模型产品在问答理解类推理类创作表达类的成熟度较高。但在数学类代码类这两个基础能力维度上得分率整体较低。

  1. 问答理解类:百度、GPT-4、阿里、商汤被列为优势厂商。值得注意的是,在安全陷阱这个细分维度,只有百度文心大模型入选优势厂商。

这类题目主要考察模型理解和回答人类问题的能力,IDC 从常识、专业知识、多语言、多模态、角色扮演 + 多轮对话、安全陷阱进行考察。

  1. 推理类:百度归纳推理类比推理两项指标上入选优势厂商。

推理类题目主要考察大模型基于已知信息推出新结论的思维方式。

  1. 创作表达类:百度在内容创作、生成质量和速度等方面展现出优势。

创作表达类主要考察大模型识别和理解文本创作、区别不同的语言风格,生成高质量的的内容。

  1. 数学类:百度大模型在数学类任务上体现出较强的体系化思维、逻辑思维和抽象思维能力。GPT4、商汤、智谱、百川在高等数学细类中被列为优势厂商。

数学类评测,要求大模型不仅需要逻辑推理能力,还需要对问题有很好的解析和理解、抽象出各个问题的逻辑关系,最后给出准确的答案。

  1. 代码类:其下所有 6 个细分维度中,百度均入围优势厂商,在代码生成、编程翻译、代码补全、代码纠错等多个方面表现优异。

代码能力是评估大模型理解、逻辑、推理、生成等综合能力的体现,其已成为程序员辅助编程的必备助手。

应用能力评测

应用能力评测主要评估大模型产品在办公工具、生活助手等toC通用场景类和toB特定行业类的表现。

  1. toC通用场景类:入选的厂商非常少,但百度办公工具生活助手这两项指标上均入选。
  2. toB特定行业类:百度、GPT-4、阿里和商汤被列为优势厂商。其中,百度文心大模型已经在金融、法律、科研等多个行业落地。GPT-4工业、零售电商等落地较好。

值得一提的是,最近在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型——商汤「日日新 5.0」(SenseChat V5),被 IDC 列为第一梯队,“日日新5.0”及AI产品「商量」、「秒画」在基础能力方面表现出色:

  1. 基础能力评测
  • 在问答理解方面,其常识、专业知识表现突出,助力用户准确获取信息;
  • 在推理方面,其情感推理、逻辑推理、归纳推理等能力优越,可以帮助人更加深入地理解事物,发现新的问题和解决方案;
  • 在创作表达方面,其内容文字创作&创意等细分维度具备优势,产品成熟度高;
  • 在数学方面,处理高中数学、高等数学等高阶数学题目时表现突出;
  • 在代码方面,其生成代码文档能力具备优势;
  1. 应用能力评测

在应用方面,IDC 报告指出商汤“日日新5.0”大模型体系及产品面向toB行业、解决行业的实际应用问题的能力具备优势,尤其是在咨询服务(财报分析&市场分析)、互联网/媒体营销、零售/电商、医疗等toB特定行业。

在这里插入图片描述

IDC认为,从2024年二季度开始,中国市场迎来了一波基础大模型及产品的更新升级。

IDC 中国大模型产品测试团队表示,2024年产业界更加关注大模型和生成式AI的落地,技术供应商需持续优化生成质量,提高生成速度并降低大模型使用成本,加快大模型技术的应用与普及。
在这里插入图片描述

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值