一文就够——IB网络初识与场景深入理解

踢足球滴程序猿

已于 2024-11-22 16:17:06 修改

阅读量4.5k

点赞数 26

分类专栏：智算中心文章标签：网络 gpu算力 linux

于 2024-11-22 16:14:56 首次发布

本文链接：https://blog.csdn.net/m0_59292545/article/details/143961279

版权

智算中心专栏收录该内容

2 篇文章

订阅专栏

一、基本概念

InfiniBand（IB）是一种高性能计算和数据中心网络架构，它的英文直译过来，就是“无线带宽”。

正如大家所见，以GPT为首例的AIGC大模型崛起，整个社会对高性能计算和智能计算的需求井喷。其设计目标是通过提供低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求。

文末附当前最新的IB交换机和网卡等产品信息。

二、Nvidia+Mellanox

说起InfiniBand，有一家公司我们是必须提到的，那就是大名鼎鼎的Mellanox。

Mellanox在全球InfiniBand市场上的占有率达到80%。他们的业务范围，已经从芯片延伸到网卡、交换机/网关、远程通信系统和线缆及模块全领域，成为世界级网络提供商。

2019年，英伟达（Nvidia）公司豪掷69亿美元，击败对手英特尔和微软（分别出价60亿和55亿美元），成功收购了Mellanox。

“这是两家全球领先高性能计算公司的结合，我们专注于加速计算（accelerated computing），而Mellanox专注于互联和存储”。——老黄。

将自家的GPU算力优势与Mellanox的网络优势相结合，就等于打造了一个强大的“算力引擎”。

三、关键机制

简单来说，InfiniBand的诞生目的，就是为了绕过PCI总线。它引入了RDMA协议，具有更低的延迟，更大的带宽，更高的可靠性，可以实现更强大的I/O性能。

3.1 核心：RDMA

InfiniBand网络最引人注目的特性之一是远程直接内存访问（RDMA）。RDMA允许数据在不涉及主机CPU的情况下直接在内存中传输，从而降低了通信的延迟和CPU的负担。这对于高性能计算和数据中心应用非常重要，特别是在需要大规模数据传输的场景下。

RDMA相当于是一个“消灭中间商”的技术。当一台服务器需要从另一台服务器的内存中读取或写入数据时，使用RDMA可以避免涉及中间步骤，直接在两台服务器之间进行数据传输，提高了数据传输的效率和速度。

RDMA的内核旁路机制，允许应用与网卡之间的直接数据读写，将服务器内的数据传输时延降低到接近1us。同时，RDMA的内存零拷贝机制，允许接收端直接从发送端的内存读取数据，绕开了核心内存的参与，极大地减少了CPU的负担，提升CPU的效率。

四、InfiniBand的链路速率

目前在智算中心建设中所常说的EDR、HDR、NDR这些是InfiniBand网络接口的一种分类方式，按照数据传输速率的的不同进行区分。具体如下：

SDR（Single Data Rate）：单倍数据率，即8Gb/s。

DDR（Double Data Rate）：双倍数据率，即16Gb/s。

QDR（Quad Data Rate）：四倍数据率，即32Gb/s。

FDR（Fourteen Data Rate）：十四倍数据率，即56Gb/s。

EDR（Enhanced Data Rate）：100 Gb/s。

HDR（High Data Rate）：200 Gb/s。

NDR（Next Data Rate）：400 Gb/s+。

这些速率是在一定编码方式下的数据率，在实际应用中可能由于多种因素，如编码效率、数据包头部开销等，实际可用带宽可能低于理论最大值。此外，InfiniBand接口支持通过多个通道（Link）来组合提供更高的带宽 (如通过聚合多个连接和通道，例如使用4个HDR连接可实现800 Gb/s的带宽)。

五、InfiniBand 的网络架构

InfiniBand 是一种基于通道的结构，组成单元主要分为四类：

HCA（Host Channel Adapter，主机通道适配器）
TCA（Target Channel Adapter，目标通道适配器）
InfiniBand link（连接通道，可以是电缆或光纤，也可以是板上链路）
InfiniBand交换机和路由器（组网使用）

六、IB网络设计典型拓扑

InfiniBand的二层处理过程非常简单，每个InfiniBand子网都会设一个子网管理器，生成16位的LID（本地标识符）。InfiniBand交换机包含多个InfiniBand端口，并根据第二层本地路由标头中包含的LID，将数据包从其中一个端口转发到另一个端口。除管理数据包外，交换机不会消耗或生成数据包。

以下使用127节点给大家简要介绍。

6.1 计算面网络设计

图5展示了完整的127节点DGX SuperPOD的计算网络布局。每组32个节点都沿着机架对齐。在DGX H100系统的每个机架上，每个机架上的流量始终只需一次跳转即可到达同一SU中的其他31个节点。node之间的流量，或者leaf之间的流量，通过spine层进行传输。

如上表格显示了计算网络不同SU（Switching Unit，交换单元）所需的IB交换机数量和IB线缆数量（包含UFM节点）。

6.2 存储面网络设计

七、Mellanox OFED

讲完了网络设计，我们看看需要的网卡驱动

Mellanox OFED（OpenFabrics Enterprise Distribution）是一套专门为Mellanox网络适配器设计的软件驱动程序和工具集，旨在提供对高性能网络技术的支持，特别是针对InfiniBand和以太网技术。这套软件能够帮助用户充分利用Mellanox网络设备的高级特性，它支持两种使用相同RDMA（远程直接内存访问）和内核旁路API（称为OFED动词）的互连类型——InfiniBand和Ethernet。支持高达400Gb/s的InfiniBand和基于RDMA over Converged Ethernet（RoCE）标准）的10/25/40/50/100/200/400GbE。