再次霸榜“AI界奥运会”MLPerf™，浪潮的AI硬实力如何？-CSDN博客

本文链接：https://blog.csdn.net/AImatters/article/details/126896644

摘要：浪潮超半数冠军的含金量如何？

9月9日，全球权威AI基准评测MLPerf™V2.1推理最新评测成绩公布，浪潮交出了一份亮眼的成绩单：获得固定赛道超半数任务冠军。

在最受关注的固定赛道全部30项任务中，浪潮AI服务器获得19项最高成绩，其中在数据中心16项任务中斩获12项冠军，边缘14项任务中获得7项冠军，同时刷新了11项性能记录，并将BERT、3D-UNet等重要任务的性能提升约100%。

在AI业界，MLPerf™基准评测的含金量有多少？提起浪潮，很多人的印象还停留在老牌硬件厂商的层面。在人工智能时代，浪潮的AI实力又如何呢？

顶尖大厂同台竞技的“AI界奥运会”

提到性能标准，很多人都不陌生。比如手机的性能可以从CPU、内存等核心配置中判断，超算（HPC）的性能以PFlops（每秒浮点运算次数）来衡量，数值越大性能越强。

那么，AI性能有没有一套权威客观的评测标准呢？尤其是当企业采购AI产品或服务时，怎样判别产品的技术实力？

AI性能的衡量逻辑不是单一维度，其表现受到芯片等硬件、技术架构、算法、场景等多重因素影响。以场景为例，自然语言处理和计算机视觉对性能的要求千差万别，好比我们无法比较举重冠军和短跑冠军哪个更强一样。因此，AI性能评测必须按场景，分赛道。

MLPerf™基准评测正是为客观衡量AI性能而生，它由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福大学、哈佛大学等共同成立，是国际上最权威、最有影响力的基准测试之一，被誉为“AI界奥运会”。

MLPerf™还是一个更新频率很高的榜单。MLPerf™的组织方非盈利性机器学习开放组织MLCommons每年组织2次MLPerf™AI训练性能测试和2次MLPerf™AI推理性能测试，就是为了快速跟进AI技术的飞速发展。

MLPerf™竞赛内容分为固定任务(Closed)和开放优化(Open)两大类。固定任务中，参赛各方必须使用相同模型和优化器完成任务，相当于各厂商要完成同一个命题作文。因此固定任务也是竞争最激烈的赛道。

自启动以来，MLPerf™一直是全球顶尖AI厂商的赛场。比如，本次MLPerf™推理评测吸引了包括NVIDIA、浪潮信息、Intel、高通、阿里巴巴、戴尔、惠普等全球21家厂商和研究机构参与。

国产GPU历史性突围

本次MLPerf™测试，国产GPU厂商壁仞科技成为一匹黑马。

首次参与MLPerf™的壁仞科技，以最新发布的通用GPU芯片BR104，拿下数据中心推理评测中自然语言理解（BERT模型）和图像分类（ResNet50模型）两类基准评测“available”（可售产品类别）单卡性能全球第一，其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

在当下复杂的国际环境中，国产GPU靠硬核实力突围，引发了全球AI界的广泛关注。这背后，离不开壁仞科技原创芯片硬件架构与BIRENSUPA软件栈的创新设计。壁仞科技在高性能算子、算子融合、图融合、变长序列合并、端到端异步执行、数据读取和计算负载均衡、混合精度计算等方面进行了深度优化。

2019年成立的壁仞科技，专注于国产高端通用智能计算芯片研发，是半导体领域成长势头最为迅猛的“独角兽”企业。目前，BR104芯片已经开始了大规模的客户送测和适配，性能更强大的BR100也将启动落地应用。

作为浪潮元脑生态伙伴，壁仞科技的GPU芯片搭载了浪潮服务器参赛，也从侧面证明了浪潮AI服务器对多元算力的支持和优化能力。

浪潮超半数冠军的含金量如何？

MLPerf™冠军的含金量有多重？可以从两大维度来看。

第一， AI系统实力比拼。

MLPerf™不是芯片或算法的单一比拼，而是重点考察软硬一体的系统平台的AI能力，也就是AI服务器性能。作为MLCommons创始成员之一，浪潮已经先后10次参加MLPerf™评测，多次获得冠军总数第一。

这一方面验证了浪潮对多元芯片的支持、优化实力。无论国际、国产GPU芯片，无论哪种架构，浪潮AI服务器都能发挥出AI算力的最佳性能。另一方面，多个主流场景都取得了好成绩，也证明了浪潮AI服务器对主流AI场景的全面支持。

第二，覆盖主流AI实际应用场景。

MLPerf™不是象牙塔里的学术竞赛，其赛道任务都是实际应用中最主流的AI场景。本次推理评测任务涵盖了自然语言处理（BERT）、智能推荐（DLRM）、图像分类（ResNet）、医学影像分割（3D U-Net）、轻量级目标物体检测（RetinaNet）及语音识别（RNN-T）6类任务。

单看这张榜单，很难对浪潮的AI实力有具象直观的印象，不妨看几个典型场景。

自然语言处理被誉为人工智能皇冠上的明珠，是AI理解人类语言的关键。BERT是一个无监督的NLP与训练模型，也是AI发展史上一个里程碑意义的重要模型。在自然语言处理任务中，浪潮AI服务器在全球首次实现单机搭载24颗国际通用GPU，通过深入优化GPU轮询调度策略，充分发挥每块GPU性能，大幅提升了BERT推理性能，最终实现每秒钟回答7.5万个问答任务，相当于每秒完成7.5万道阅读理解题。

目标检测是计算机视觉许多实际应用的基础，例如自动驾驶、故障报修、工业检测等。自动驾驶汽车的视觉系统对道路、车辆以及行人的检测，对交通标志物以及路旁物体的识别都是目标检测的应用。浪潮在目标检测场景中表现突出，可以做到每秒钟完成1.3万张图片的目标提取任务。

医学影像分割通过对医学影像中器官或病变进行分割，实现对疾病的精准识别。3D生物医学影像由多个切片构成一整张图，人类医生靠肉眼查看非常费时费力。而浪潮AI服务器可以每秒钟完成75张3D医疗影像的分割。

千人千面的智能推荐系统则是智能推荐任务的典型应用。浪潮AI服务器创下每秒288.4万次点击预测的最佳性能纪录，相当于一秒钟定制化推荐288.4万条用户感兴趣的资讯。

超半数冠军的成绩背后，是浪潮在AI服务器的整机系统优化、软硬件协同优化等多方面持续创新。例如，在算法优化层面，浪潮首先在MLPerf™训练中应用超参优化方案，大幅提高训练性能。在架构优化方面，浪潮率先采用JBOG方案，极大提升了AI服务器搭载超多数量GPU设备的能力。单机搭载24颗GPU的突破就是该架构优化的成功实践。

MLPerf™的技术权威性离不开头部厂商的创新贡献。除了不断打榜，浪潮还持续将领先技术分享到MLCommons社区，已经被大量参赛厂商采用并广泛应用于后续评测中。