目录
NVIDIA Unified Fabric Manager (UFM)
一、基本概念
InfiniBand(IB)是一种高性能计算和数据中心网络架构,它的英文直译过来,就是“无线带宽”。
正如大家所见,以GPT为首例的AIGC大模型崛起,整个社会对高性能计算和智能计算的需求井喷。 其设计目标是通过提供低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求。
文末附当前最新的IB交换机和网卡等产品信息。
二、Nvidia+Mellanox
说起InfiniBand,有一家公司我们是必须提到的,那就是大名鼎鼎的Mellanox。
Mellanox在全球InfiniBand市场上的占有率达到80%。他们的业务范围,已经从芯片延伸到网卡、交换机/网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商。
2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了Mellanox。
“这是两家全球领先高性能计算公司的结合,我们专注于加速计算(accelerated computing),而Mellanox专注于互联和存储”。——老黄。
将自家的GPU算力优势与Mellanox的网络优势相结合,就等于打造了一个强大的“算力引擎”。
三、关键机制
简单来说,InfiniBand的诞生目的,就是为了绕过PCI总线。它引入了RDMA协议,具有更低的延迟,更大的带宽,更高的可靠性,可以实现更强大的I/O性能。
3.1 核心:RDMA
InfiniBand网络最引人注目的特性之一是远程直接内存访问(RDMA)。RDMA允许数据在不涉及主机CPU的情况下直接在内存中传输,从而降低了通信的延迟和CPU的负担。这对于高性能计算和数据中心应用非常重要,特别是在需要大规模数据传输的场景下。
RDMA相当于是一个“消灭中间商”的技术。当一台服务器需要从另一台服务器的内存中读取或写入数据时,使用RDMA可以避免涉及中间步骤,直接在两台服务器之间进行数据传输,提高了数据传输的效率和速度。
RDMA的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,绕开了核心内存的参与,极大地减少了CPU的负担,提升CPU的效率。
四、InfiniBand的链路速率
目前在智算中心建设中所常说的EDR、HDR、NDR这些是InfiniBand网络接口的一种分类方式,按照数据传输速率的的不同进行区分。具体如下:
SDR(Single Data Rate):单倍数据率,即8Gb/s。
DDR(Double Data Rate):双倍数据率,即16Gb/s。
QDR(Quad Data Rate):四倍数据率,即32Gb/s。
FDR(Fourteen Data Rate):十四倍数据率,即56Gb/s。
EDR(Enhanced Data Rate):100 Gb/s。
HDR(High Data Rate):200 Gb/s。
NDR(Next Data Rate):400 Gb/s+。
这些速率是在一定编码方式下的数据率,在实际应用中可能由于多种因素,如编码效率、数据包头部开销等,实际可用带宽可能低于理论最大值。此外,InfiniBand接口支持通过多个通道(Link)来组合提供更高的带宽 (如通过聚合多个连接和通道,例如使用4个HDR连接可实现800 Gb/s的带宽)。
五、InfiniBand 的网络架构
InfiniBand 是一种基于通道的结构,组成单元主要分为四类:
- HCA(Host Channel Adapter,主机通道适配器)
- TCA(Target Channel Adapter,目标通道适配器)
- InfiniBand link(连接通道,可以是电缆或光纤,也可以是板上链路)
- InfiniBand交换机和路由器(组网使用)
六、IB网络设计典型拓扑
InfiniBand的二层处理过程非常简单,每个InfiniBand子网都会设一个子网管理器,生成16位的LID(本地标识符)。InfiniBand交换机包含多个InfiniBand端口,并根据第二层本地路由标头中包含的LID,将数据包从其中一个端口转发到另一个端口。除管理数据包外,交换机不会消耗或生成数据包。
以下使用127节点给大家简要介绍。
6.1 计算面网络设计
图5展示了完整的127节点DGX SuperPOD的计算网络布局。每组32个节点都沿着机架对齐。在DGX H100系统的每个机架上,每个机架上的流量始终只需一次跳转即可到达同一SU中的其他31个节点。node之间的流量,或者leaf之间的流量,通过spine层进行传输。
如上表格显示了计算网络不同SU(Switching Unit,交换单元)所需的IB交换机数量和IB线缆数量(包含UFM节点)。
6.2 存储面网络设计
七、Mellanox OFED
讲完了网络设计,我们看看需要的网卡驱动
Mellanox OFED(OpenFabrics Enterprise Distribution)是一套专门为Mellanox网络适配器设计的软件驱动程序和工具集,旨在提供对高性能网络技术的支持,特别是针对InfiniBand和以太网技术。这套软件能够帮助用户充分利用Mellanox网络设备的高级特性,它支持两种使用相同RDMA(远程直接内存访问)和内核旁路API(称为OFED动词)的互连类型——InfiniBand和Ethernet。支持高达400Gb/s的InfiniBand和基于RDMA over Converged Ethernet(RoCE)标准)的10/25/40/50/100/200/400GbE。
官方网址链接:Linux InfiniBand Drivers
7.1 OpenSM 简介
OpenSM 软件是符合InfiniBand的子网管理器(SM),运行在Mellanox OFED软件堆栈进行IB网络 管理,管理控制流走业务通道,属于带内管理方式。
所有符合 InfiniBand 的 ULP 都需要始终正确运行在 InfiniBand 结构上运行的子网管理器 (SM)。SM 可以运行在任何节点或 IB 交换机上。OpenSM 是一个与 InfiniBand 兼容的子网管理器,它作为 NVIDIA OFED 1的一部分安装。
OpenSM 包括子网管理器、背板管理器和性能管理器三个组件,绑定在交换机内部的必备部件。提供非常完备的管理和监控能力,如:设备自动发现、设备管理、Fabric可视化、智能分析、健康监测等等。
八、IB与ROCE分析对比
面对InfiniBand的赶超,以太网也没有坐以待毙。
2010年4月,IBTA发布了RoCE(RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问),将InfiniBand中的RDMA技术“移植”到了以太网。2014年,他们又提出更加成熟的RoCE v2。
相同点:
相同的RDMA传输层标准,在同一个标准组织定义,使用相同的编程接口,共享相同的RDMA应用生态
不同点:
1.IB同子网包头信息短,有效载荷略高。IB采用信用机制实现流控,相比RoCE采用PFC流控对芯片缓存要求稍低。
2.ROCE具备以太和IP的优势:大规模网络、网络虚拟化、网络运维等。
九、InfiniBand的商用产品:
产品目前更新至2024.11.22
IB交换机系列
网址链接:NVIDIA InfiniBand 交换机 | NVIDIA
QM8700:200G
QM9700:400G
X800:800G
IB网卡系列(均支持切换以太)
网址链接:NVIDIA InfiniBand 网卡 | NVIDIA
CX5:100G
CX6:200G
CX7:400G
CX8:800G
NVIDIA Unified Fabric Manager (UFM)
UFM 平台可助力科研和行业数据中心操作人员对 InfiniBand 数据中心网络进行高效调配、监控、管理、预防性故障排除及维护。UFM 平台包含多个不同级别的解决方案和全面的功能集,可满足广泛的现代横向扩展数据中心需求。借助 UFM,您可以实现更高的网络资源利用率、获得竞争优势,并减少运营支出。
官方链接:NVIDIA Unified Fabric Manager (UFM) | NVIDIA
码字不易,谢谢点赞与关注