摘要:浪潮超半数冠军的含金量如何?
9月9日,全球权威AI基准评测MLPerf™V2.1推理最新评测成绩公布,浪潮交出了一份亮眼的成绩单:获得固定赛道超半数任务冠军。
在最受关注的固定赛道全部30项任务中,浪潮AI服务器获得19项最高成绩,其中在数据中心16项任务中斩获12项冠军,边缘14项任务中获得7项冠军,同时刷新了11项性能记录,并将BERT、3D-UNet等重要任务的性能提升约100%。
在AI业界,MLPerf™基准评测的含金量有多少?提起浪潮,很多人的印象还停留在老牌硬件厂商的层面。在人工智能时代,浪潮的AI实力又如何呢?
顶尖大厂同台竞技的“AI界奥运会”
提到性能标准,很多人都不陌生。比如手机的性能可以从CPU、内存等核心配置中判断,超算(HPC)的性能以PFlops(每秒浮点运算次数)来衡量,数值越大性能越强。
那么,AI性能有没有一套权威客观的评测标准呢?尤其是当企业采购AI产品或服务时,怎样判别产品的技术实力?
AI性能的衡量逻辑不是单一维度,其表现受到芯片等硬件、技术架构、算法、场景等多重因素影响。以场景为例,自然语言处理和计算机视觉对性能的要求千差万别,好比我们无法比较举重冠军和短跑冠军哪个更强一样。因此,AI性能评测必须按场景,分赛道。
MLPerf™基准评测正是为客观衡量AI性能而生,它由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等共同成立,是国际上最权威、最有影响力的基准测试之一,被誉为“AI界奥运会”。
MLPerf™还是一个更新频率很高的榜单。MLPerf™的组织方非盈利性机器学习开放组织MLCommons每年组织2次MLPerf™AI训练性能测试和2次MLPerf™AI推理性能测试,就是为了快速跟进AI技术的飞速发展。
MLPerf™竞赛内容分为固定任务(Closed)和开放优化(Open)两大类。固定任务中,参赛各方必须使用相同模型和优化器完成任务,相当于各厂商要完成同一个命题作文。因此固定任务也是竞争最激烈的赛道。
自启动以来,MLPerf™一直是全球顶尖AI厂商的赛场。比如,本次MLPerf™推理评测吸引了包括NVIDIA、浪潮信息、Intel、高通、阿里巴巴、戴尔、惠普等全球21家厂商和研究机构参与。
国产GPU历史性突围
本次MLPerf™测试,国产GPU厂商壁仞科技成为一匹黑马。
首次参与MLPerf™的壁仞科技,以最新发布的通用GPU芯片BR104,拿下数据中心推理评测中自然语言理解(BERT模型)和图像分类(ResNet50模型)两类基准评测“available”(可售产品类别)单卡性能全球第一,其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。
在当下复杂的国际环境中,国产GPU靠硬核实力突围,引发了全球AI界的广泛关注。这背后,离不开壁仞科技原创芯片硬件架构与BIRENSUPA软件栈的创新设计。壁仞科技在高性能算子、算子融合、图融合、变长序列合并、端到端异步执行、数据读取和计算负载均衡、混合精度计算等方面进行了深度优化。
2019年成立的壁仞科技,专注于国产高端通用智能计算芯片研发,是半导体领域成长势头最为迅猛的“独角兽”企业。目前,BR104芯片已经开始了大规模的客户送测和适配,性能更强大的BR100也将启动落地应用。
作为浪潮元脑生态伙伴,壁仞科技的GPU芯片搭载了浪潮服务器参赛,也从侧面证明了浪潮AI服务器对多元算力的支持和优化能力。
浪潮超半数冠军的含金量如何?
MLPerf™冠军的含金量有多重?可以从两大维度来看。
第一, AI系统实力比拼。
MLPerf™不是芯片或算法的单一比拼,而是重点考察软硬一体的系统平台的AI能力,也就是AI服务器性能。作为MLCommons创始成员之一,浪潮已经先后10次参加MLPerf™评测,多次获得冠军总数第一。
这一方面验证了浪潮对多元芯片的支持、优化实力。无论国际、国产GPU芯片,无论哪种架构,浪潮AI服务器都能发挥出AI算力的最佳性能。另一方面,多个主流场景都取得了好成绩,也证明了浪潮AI服务器对主流AI场景的全面支持。
第二, 覆盖主流AI实际应用场景。
MLPerf™不是象牙塔里的学术竞赛,其赛道任务都是实际应用中最主流的AI场景。本次推理评测任务涵盖了自然语言处理(BERT)、智能推荐(DLRM)、图像分类(ResNet)、医学影像分割(3D U-Net)、轻量级目标物体检测(RetinaNet)及语音识别(RNN-T)6类任务。
单看这张榜单,很难对浪潮的AI实力有具象直观的印象,不妨看几个典型场景。
自然语言处理被誉为人工智能皇冠上的明珠,是AI理解人类语言的关键。BERT是一个无监督的NLP与训练模型,也是AI发展史上一个里程碑意义的重要模型。在自然语言处理任务中,浪潮AI服务器在全球首次实现单机搭载24颗国际通用GPU,通过深入优化GPU轮询调度策略,充分发挥每块GPU性能,大幅提升了BERT推理性能,最终实现每秒钟回答7.5万个问答任务,相当于每秒完成7.5万道阅读理解题。
目标检测是计算机视觉许多实际应用的基础,例如自动驾驶、故障报修、工业检测等。自动驾驶汽车的视觉系统对道路、车辆以及行人的检测,对交通标志物以及路旁物体的识别都是目标检测的应用。浪潮在目标检测场景中表现突出,可以做到每秒钟完成1.3万张图片的目标提取任务。
医学影像分割通过对医学影像中器官或病变进行分割,实现对疾病的精准识别。3D生物医学影像由多个切片构成一整张图,人类医生靠肉眼查看非常费时费力。而浪潮AI服务器可以每秒钟完成75张3D医疗影像的分割。
千人千面的智能推荐系统则是智能推荐任务的典型应用。浪潮AI服务器创下每秒288.4万次点击预测的最佳性能纪录,相当于一秒钟定制化推荐288.4万条用户感兴趣的资讯。
超半数冠军的成绩背后,是浪潮在AI服务器的整机系统优化、软硬件协同优化等多方面持续创新。例如,在算法优化层面,浪潮首先在MLPerf™训练中应用超参优化方案,大幅提高训练性能。在架构优化方面,浪潮率先采用JBOG方案,极大提升了AI服务器搭载超多数量GPU设备的能力。单机搭载24颗GPU的突破就是该架构优化的成功实践。
MLPerf™的技术权威性离不开头部厂商的创新贡献。除了不断打榜,浪潮还持续将领先技术分享到MLCommons社区,已经被大量参赛厂商采用并广泛应用于后续评测中。
从赛场到市场,全球AI算力看中国
赛场夺冠不是目的,再强大的技术实力也要到真实市场中验证。浪潮在MLPerf™赛场的表现与市场表现是强相关的。从赛场到市场,可以看出浪潮的AI布局和领先优势:
第一,在AI算力层面,浪潮信息拥有业界最全、最强大的AI服务器产品阵列,兼具高性能和高适应性,实现了AI全场景覆盖。在AI服务器市场,浪潮的市场份额位居全球第一,连续五年中国市场份额超过50%。
第二,在AI算法方面,浪潮人工智能研究院开发了2457亿参数的“源”大模型,并针对特定场景推出对话问答、知识检索、中英翻译、古文理解四个技能模型。“源”大模型上线不到5个月的时间,就已经有超过200家单位试用,支持了100多个行业应用。
第三,浪潮引领算力算法一体化、基建化趋势,推动AI基础设施升级。通过将算力基础设施智算中心,与算法基础设施大模型进行融合,浪潮致力于加速AI应用落地。目前,“源”大模型已落地长三角最大规模的智算中心南京智能计算中心,未来还将在淮海智算中心等更多区域落地,与算力基础设施实现高效协同。
根据IDC、浪潮信息、清华大学全球产业研究院共同编制的《2021-2022全球计算力指数评估报告》,计算力指数平均每提高1点,国家的数字经济和GDP会分别增长3.5‰和1.8‰。目前,中国AI服务器支出规模位列全球第一。
随着AI产业的进一步落地,AI算力占整体算力的比例将越来越高。中国AI算力的崛起,对中国AI厂商是机遇也是挑战。在“计算力就是生产力,智算力就是创新力”的时代,从AI赛场到市场,期待更多中国AI厂商能够崭露头角。
文中图片来自摄图网
END
本文为「智能进化论」原创作品。