高性能GPU服务器硬件拓扑及集群组网

大规模模型训练通常使用单机集群进行,每台机器有8张GPU卡。集群中使用的机器型号包括8 种:A100、A800、H100、H800,以及可能即将推出的 {4, 8} L40S。以下是具有8个A100GPU的典型机器的硬件拓扑:

01 基本介绍 概念和术语

1.  PCIe交换芯片

支持PCIe的CPU、内存、存储(NVMe)、GPU、网卡等设备都可以连接到PCIe总线或者专用的PCIe交换芯片上,实现互联互通。目前PCIe已经有五代产品,最新的是Gen5。

2.  NVLink

NVLink是Nvidia 开发的有线串行多通道近距离通信链路。与PCI Express不同,一个设备可以由多个NVLink组成,并且设备使用网状网络而不是中央集线器进行通信。该协议于2014年3月首次发布,使用专有的高速信号互连 (NVHS)。

NVLink功能:

NVLink是指同一主机内不同GPU之间的高速互联方式。

它提供了短距离通信链路,确保数据包成功传输,并与PCIe相比提供更高的性能。

NVLink作为PCIe的替代品,支持多通道,链路带宽随着通道数量的增加而线性增加。

NV Switch在单个节点内,GPU使用NVLink以全网状配置互连,类似于主干叶(leaf-spine)拓扑。

NVIDIA 的专利技术。

NVLink演进:第 1/2/3/4 代

主要区别在于单个NVLink链路中的通道数和每个通道的带宽(图中提供了两个方向)。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值