【智能算力中心万卡GPU集群架构深度分析 2024】

最新推荐文章于 2025-04-07 16:23:03 发布

AI大模型 lose and dream

最新推荐文章于 2025-04-07 16:23:03 发布

阅读量1.8k

点赞数 30

文章标签：架构人工智能机器学习大数据开源 github 自然语言处理

本文链接：https://blog.csdn.net/lhx17673139267/article/details/140085672

版权

文末有福利！

自 ChatGPT 发布以来，科技界掀起了一场大模型的竞争热潮。数据成为新生产要素，算力成为新基础能源,大模型则成为新生产工具，各行各业从“+A”向“AI+的转变已势不可挡。随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，超万卡集群成为这一轮大模型基建军备竞赛的标配超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代，并及时对市场趋势作出应对。

然而，如何在超万卡集群中实现高效的训练，并长期保持训练过程的稳定性，是将大模型训练扩展到数万张 GPU 卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题,目前都是业内关注的焦点。

第一章: 超万卡集群背景与趋势

1.1 大模型驱动智能算力爆发式增长

自 ChatGPT 面世以来,大模型步入了迅猛发展期,模型层出不穷,爆点频出ScalingLaw 不断得到验证,高速发展的人工智能对数字经济产生了巨大赋能作用。大模型所使用的数据量和参数规模呈现“指数级”增长,2018 年 BERT 模型参数量仅有 1.1 亿，到 2021 年 GPT-3 达到了 1750 亿。

1.2 超万卡集群的建设正在提速

Google 推出超级计算机 A3 Virtual Machines,拥有 26000 块 Nvidia H100 GPU，同时基于自研芯片搭建 TPUv5p 8960 卡集群。

Meta 在 2022 年推出了一个拥有 16,000 块Nvidia A100 的 AI研究超级集群 AI Research Super Cluster, 2024 年初又公布 2 个24576 块 Nvidia H100 集群,用于支持下一代生成式 Al 模型的训练。

2.3 超大规模互联的挑战

**模型规模扩大到万亿量级，数据的吞吐量和计算量已远远超过目前最强单机单卡能力，多机多卡互联和并行训练策略成为必须。**以在超万卡集群部署 1.8 万亿 GPT-4 为例，在大模型训练过程中,每轮迭代计算都涉及前反向传播算法的计算和通信，这对超万卡集群的 Scale Out 和 Scale UP 网络提出极大挑战。

2.4 集群高可用和易运维挑战

超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转，任一部件不可恢复的失效都可能导致训练中断，带来超万卡集群高可用和易运维的关键挑战:

2.5 高能耗高密度机房设计的挑战

超万卡集群对机房配套设施的需求相对于传统 DC 云数据中心发生重大变化，对供电、承重、机房洁净度和走线架设计等有极高要求:

第三章: 超万卡集群的核心设计原则和总体架构

3.1 超万卡集群的核心设计原则

在大算力结合大数据生成大模型的发展路径下，超万卡集群的搭建不是简简单单的算力堆叠，要让数万张 GPU 卡像一台“超级计算机”一样高效运转。

超万卡集群的总体设计应遵循以下五大原则:

坚持打造极致集群算力: 基于 Scale-up 互联打造单节点算力峰值，基于Scale-out 互联将单集群规模推高至万卡以上，两者叠加构建超万卡集群的大算力基座;

坚持构建协同调优系统: 依托超大规模的算力集群,通过 DP/PP/TP/EP 等各种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比，最大化模型开发效率;

3.2 超万卡集群的总体架构设计

超万卡集群的总体架构由四层一域构成(如图 1) ,四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。