FlagPerf支持千卡集群的AI芯片评测，形成多模态&混合专家大模型场景评测方案-CSDN博客

本文链接：https://blog.csdn.net/eagleofstar/article/details/138670187

近日，FlagPerf推出重要升级，支持千卡集群评测，并构建了高度可适配的多模态大模型（LMM）、混合专家大模型（MoE）预训练评测方案，以评测芯片在此类新兴场景下的高性能计算和适应能力。在持续跟进前沿需求方面，针对新问世的llama3系列模型，FlagPerf计划在月底支持并供厂商适配。

FlagPerf是智源研究院联合各大AI软硬件厂商共建的开源、开放、灵活、公正、客观的一体化AI硬件评测引擎，可快速高效地对AI硬件进行适配和评测，解决当前AI硬件所面临的兼容性差、技术栈异构程度高、应用场景复杂多变等挑战，快速对AI芯片进行评测。截至目前，FlagPerf 已完成来自9家芯片厂商的15款芯片的综合评测。

FlagPerf开源项目地址：

https://github.com/FlagOpen/FlagPerf

一、FlagPerf 评测对象和场景新升级

1.1 支持千卡集群评测

针对千卡集群搭建面临的组网复杂、大规模并行扩展等挑战，FlagPerf制定并实施了面向单机至千卡的统一评测方案与评测软件并开源。FlagPerf 已在超过三款不同厂商AI芯片分别组成的千卡集群实践上述评测方案与评测软件，获取完整结果，为相关需求方提供有力数据支撑，同时帮助芯片厂商及用户多维度地了解芯片面对千卡预训练大模型的表现与资源消耗。FlagPerf选取有千卡英伟达芯片实训经验的大语言模型预训练任务，采用容器化管理、固定评测规则、固定模型配置、指定参评机器规模等关键命题设置的方法进行评测，并出具专业严谨的评测报告。

涵盖训练吞吐、算力利用率、存储、互联、功耗、资源利用率等80项客观指标。囊括经典模型、语言大模型、多模态大模型、MoE大模型训练推理场景。

芯片厂商在软件侧无需改动代码，仅需针对自家硬件情况改动少许必要配置项，即可启动千卡训练评测任务，并一键自动获取硬件基础规格、功能正确性、性能、稳定性、能效比、扩展比、资源使用七大类客观指标。这些指标可分解为功能正确性结果、吞吐、算力利用率、存储、互联、功耗、资源利用率等80项客观指标，厂商在适配过程中无需关注指标输出细节，所有指标结果在代码适配后自动生成。

1.2 支持LMM、MoE大模型训练推理场景

LMM、MoE已成为AI 产业界新的关注点。FlagPerf 针对LMM、MoE模型采用的创新计算模式和训练所需的算子特点，构建了高度适配LMM模型、MoE模型预训练评测方案，以评测芯片在此类新兴场景下的高性能计算和适应能力。

LMM模型在计算过程中还涉及图像等其他模态的计算，算子类型相比语言大模型更多。不同模态同时计算对芯片的软件栈能力提出了更高的考验。

MoE模型相比语言大模型传统的“数据-张量-流水”3D并行，新增了专家并行或专家内张量并行，集合通信类型不局限于传统LLM预训练中的TP、DP、PP所产生的all-reduce，all-gather等模式，对各芯片厂商集合通信库的软件实现，芯片间硬件拓扑提出了更高的要求。

二、FlagPerf 助力AI芯片产业生态建设

FlagPerf 作为中立的开放评测平台，持续赋能AI芯片产业生态中的芯片厂商和用户。

一方面，FlagPerf 为AI芯片用户提供了公正评测基准和多元开放的评测平台，在用户采购算力、建立AI硬件质量保障体系等环节提供可靠的参考。

降低决策风险，提升采购效率。如某服务器厂商已将FlagPerf纳入AI服务器产线相关流程作为数据支撑；某运行商正在引入FlagPerf帮助智算中心相关决策；某芯片厂商将FlagPerf平台及其产出的评测报告作为面向客户推介芯片的业务评测标准。

辅助用户建立AI芯片质量保障体系。用户引入FlagPerf进行自身的集群性能评测，根据评测结果优化集群性能。同时，用户在日常运维中利用FlagPerf发现集群问题，可以快速定位故障。

另一方面，AI芯片厂商与FlagPerf开源评测软件的适配过程中，可发现并解决内部软件的诸多问题。如某厂商适配推理评测过程中根据结果反馈，发现并修复了其AI编译器的问题，完成了其AI编译器的升级优化，提升了AI芯片软件栈质量和整体性能，实现了产品能力的跨越式升级。

芯片厂商A：“Flagperf 框架填补了国内缺失的AI芯⽚相关评测标准，场景实用、方法指标公正，有超过8家客户使用过该框架测试我司芯片，对业务评测是很好的补充。”
芯片厂商B：“作为FlagPerf平台的使用者及共建者，我们认为FlagPerf是一个用户友好的测试平台。测试项目齐全，更新及时；核心的使用说明清晰，易于用户上手，评测指标完备并有说服力。FlagPerf平台的结果报告帮助我们在不同行业内收获了影响力。”
芯片厂商C：“Flagperf 时效性强，紧跟社区动态，添加了 llama2，baichuan，GLM 等多个经典大模型评测，互为助力，契合厂商不断发展的评测需求。”
芯片厂商D：“Flagperf 对于厂商适配开发来说，代码开发量小，开发速度快，支持算子扩展等性能优化手段，灵活性比较好，基于DockerFile构建不同模型测试用例，对芯片厂商适配、训练、研发等非常方便，是一个非常不错的中立可靠且具备行业影响力的评测平台。”
运营商A：“我们算力运营单位正在使用FlagPerf对国产信创芯片+大模型进行评测，未来双方将在基础软硬件测试、生态共建等多维度深化合作，共同推进 AI 硬件评测建设。”
运营商B：“FlagPerf简单易用，在我司云智算平台中发挥了重要作用：在集群交付中给出Benchmark数据，作为交付基础指标。未来持续构建在集群建设和优化过程中快速进行性能评测，根据评测结果优化集群性能的能力；并共同探索通过性能评测发现集群问题，帮助用户定位故障的能力。”

三、总结

秉持“开源开放”精神，智源研究院联合一批全国重点的人工智能芯片企业共建“AI开放生态实验室”，围绕AI芯片进行底层技术联合创新，验证各种AI芯片对超大规模模型训练任务的支持力度，推动AI芯片构建完整的上下游软件生态，为AI芯片的生态发展和创新打造开放合作的平台。

目前 FlagPerf 先后与多家AI芯片厂商进行了深度合作，共同推进AI硬件评测体系建设。

未来智源研究院将与合作伙伴共同完善AI芯片创新生态，推动AI软硬件协同的底层创新，实现AI芯片的百花齐放。欢迎更多企业单位和机构加入共建。

FlagPerf 是智源 FlagOpen（飞智）大模型开源技术体系的重要组成部分。FlagOpen旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的“新Linux”开源开放生态。FlagOpen 包含大模型算法、模型、数据、工具、评测等重要组成部分，国内外开发者基于FlagOpen可以快速开启各种大模型的尝试、开发和研究工作，企业可以低门槛进行大模型研发。同时，FlagOpen大模型基础软件开源体系正逐步实现对多种深度学习框架、多种AI芯片的完整支持，支撑AI大模型软硬件生态的百花齐放。