高性能GPU服务器集群拓扑及组网方案

最新推荐文章于 2024-07-04 12:13:23 发布

科技互联人生

最新推荐文章于 2024-07-04 12:13:23 发布

阅读量1.6k

点赞数 34

分类专栏：科技数码人工智能文章标签： gpu算力人工智能

本文链接：https://blog.csdn.net/njbaige/article/details/137867326

版权

本文详细介绍了高性能GPU服务器的硬件拓扑，包括8*A100和8*A800主机的内部结构，重点讨论了PCIe、NVLink、NVSwitch、HBM等技术在提升GPU间通信性能中的作用。通过分析不同GPU型号的带宽和性能，阐述了GPU集群组网方案，包括RoCE和InfiniBand的选择，以及如何优化数据链路以最大化训练效率。

摘要由CSDN通过智能技术生成

 

高性能GPU服务器硬件拓扑与集群组网

   

01、术语与基础

大模型训练采用集群式架构，每台主机配备 8 块高性能 GPU，包括 A100、A800、H100、H800 四种机型。其中，典型 8*A100 GPU 主机内部硬件架构如下：

| 典型 8 卡 A100 主机硬件拓扑

 PCIe 交换芯片

PCIe 技术：高效互联
PCIe 总线连接支持 PCIe 的设备，如 CPU、内存、NVME、GPU 和网卡，实现高效的数据传输。
最新一代 PCIe Gen5 提供卓越性能，通过 PCIe 交换芯片实现多设备互联。

NVLink

＞定义
Wikipedia 上 NVLink 上的定义：
NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).
简单总结：同主机内不同 GPU 之间的一种高速互联方式：

是一种短距离通信链路，保证包的成功传输，更高性能，替代 PCIe，
支持多 lane，link 带宽随 lane 数量线性增长，
NVLink 直接连接同一节点内的 GPU，形成类似 spine-leaf 的全网格网状结构，提供快速、低延迟的通信。
NVIDIA 专利技术。

NVIDIA NVLink 演进
NVLink 连接技术的演进主要体现在单条链路的 Lane 数量和每个 Lane 的双向带宽上：
| NVLink 版本 | Lane 数量 | Lane 带宽 (Gb/s) |

| 第一代 | 20 | 8 |
| 第二代 | 24 | 12 |
| 第三代 | 24 | 25 |
| 第四代 | 36 | 50 |

A100 具备强大的 600GB/s 双向带宽，由 12 个 NVSwitch 组成，每个 NVSwitch 提供 50GB/s 的瞬时带宽。这相当于每个 GPU 可访问高达 300GB/s 的单向带宽，实现 GPU 与 NVSwitch 之间高速数据传输。
A800 拥有 8 条高速通道，每条通道带宽高达 50GB/s，提供高达 400GB/s 的双向带宽（单向 200GB/s）。

DCGM 监视工具提供实时 NVLink 带宽数据，帮助您：
- 跟踪 GPU 之间的通信
- 优化性能并避免瓶颈
- 确保流畅顺畅的运算

NVSwitch

还是参考下图：