一文就够——IB网络初识与场景深入理解

目录

一、基本概念

二、Nvidia+Mellanox

三、关键机制

3.1  核心:RDMA

四、InfiniBand的链路速率

五、InfiniBand 的网络架构

六、IB网络设计典型拓扑

6.1  计算面网络设计

6.2  存储面网络设计

七、Mellanox OFED

7.1  OpenSM 简介

八、IB与ROCE分析对比

九、InfiniBand的商用产品:

IB交换机系列

IB网卡系列(均支持切换以太)

 NVIDIA Unified Fabric Manager (UFM)


一、基本概念

InfiniBand(IB)是一种高性能计算和数据中心网络架构,它的英文直译过来,就是“无线带宽”。

正如大家所见,以GPT为首例的AIGC大模型崛起,整个社会对高性能计算和智能计算的需求井喷。 其设计目标是通过提供低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求。

文末附当前最新的IB交换机和网卡等产品信息。


二、Nvidia+Mellanox

说起InfiniBand,有一家公司我们是必须提到的,那就是大名鼎鼎的Mellanox

Mellanox在全球InfiniBand市场上的占有率达到80%。他们的业务范围,已经从芯片延伸到网卡、交换机/网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商。

2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了Mellanox。

“这是两家全球领先高性能计算公司的结合,我们专注于加速计算(accelerated computing),而Mellanox专注于互联和存储”。——老黄。

将自家的GPU算力优势与Mellanox的网络优势相结合,就等于打造了一个强大的“算力引擎”。


三、关键机制

简单来说,InfiniBand的诞生目的,就是为了绕过PCI总线。它引入了RDMA协议,具有更低的延迟,更大的带宽,更高的可靠性,可以实现更强大的I/O性能。

3.1  核心:RDMA

InfiniBand网络最引人注目的特性之一是远程直接内存访问(RDMA)。RDMA允许数据在不涉及主机CPU的情况下直接在内存中传输,从而降低了通信的延迟和CPU的负担。这对于高性能计算和数据中心应用非常重要,特别是在需要大规模数据传输的场景下。

RDMA相当于是一个“消灭中间商”的技术。当一台服务器需要从另一台服务器的内存中读取或写入数据时,使用RDMA可以避免涉及中间步骤,直接在两台服务器之间进行数据传输,提高了数据传输的效率和速度。

RDMA的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,绕开了核心内存的参与,极大地减少了CPU的负担,提升CPU的效率。


四、InfiniBand的链路速率

目前在智算中心建设中所常说的EDR、HDR、NDR这些是InfiniBand网络接口的一种分类方式,按照数据传输速率的的不同进行区分。具体如下:

SDR(Single Data Rate):单倍数据率,即8Gb/s。

DDR(Double Data Rate):双倍数据率,即16Gb/s。

QDR(Quad Data Rate):四倍数据率,即32Gb/s。

FDR(Fourteen Data Rate):十四倍数据率,即56Gb/s。

EDR(Enhanced Data Rate):100 Gb/s。

HDR(High Data Rate):200 Gb/s。

NDR(Next Data Rate):400 Gb/s+。

这些速率是在一定编码方式下的数据率,在实际应用中可能由于多种因素,如编码效率、数据包头部开销等,实际可用带宽可能低于理论最大值。此外,InfiniBand接口支持通过多个通道(Link)来组合提供更高的带宽 (如通过聚合多个连接和通道,例如使用4个HDR连接可实现800 Gb/s的带宽)。

 


五、InfiniBand 的网络架构

InfiniBand 是一种基于通道的结构,组成单元主要分为四类:

  • HCA(Host Channel Adapter,主机通道适配器)
  • TCA(Target Channel Adapter,目标通道适配器)
  • InfiniBand link(连接通道,可以是电缆或光纤,也可以是板上链路)
  • InfiniBand交换机和路由器(组网使用)

 


六、IB网络设计典型拓扑

InfiniBand的二层处理过程非常简单,每个InfiniBand子网都会设一个子网管理器,生成16位的LID(本地标识符)。InfiniBand交换机包含多个InfiniBand端口,并根据第二层本地路由标头中包含的LID,将数据包从其中一个端口转发到另一个端口。除管理数据包外,交换机不会消耗或生成数据包。

以下使用127节点给大家简要介绍。

6.1  计算面网络设计

图5展示了完整的127节点DGX SuperPOD的计算网络布局。每组32个节点都沿着机架对齐。在DGX H100系统的每个机架上,每个机架上的流量始终只需一次跳转即可到达同一SU中的其他31个节点。node之间的流量,或者leaf之间的流量,通过spine层进行传输。

如上表格显示了计算网络不同SU(Switching Unit,交换单元)所需的IB交换机数量和IB线缆数量(包含UFM节点)。

6.2  存储面网络设计

 


七、Mellanox OFED

讲完了网络设计,我们看看需要的网卡驱动

Mellanox OFED(OpenFabrics Enterprise Distribution)是一套专门为Mellanox网络适配器设计的软件驱动程序和工具集,旨在提供对高性能网络技术的支持,特别是针对InfiniBand和以太网技术。这套软件能够帮助用户充分利用Mellanox网络设备的高级特性,它支持两种使用相同RDMA(远程直接内存访问)和内核旁路API(称为OFED动词)的互连类型——InfiniBand和Ethernet。支持高达400Gb/s的InfiniBand和基于RDMA over Converged Ethernet(RoCE)标准)的10/25/40/50/100/200/400GbE。

官方网址链接:Linux InfiniBand Drivers

7.1  OpenSM 简介

OpenSM 软件是符合InfiniBand的子网管理器(SM),运行在Mellanox OFED软件堆栈进行IB网络 管理,管理控制流走业务通道,属于带内管理方式。

所有符合 InfiniBand 的 ULP 都需要始终正确运行在 InfiniBand 结构上运行的子网管理器 (SM)。SM 可以运行在任何节点或 IB 交换机上。OpenSM 是一个与 InfiniBand 兼容的子网管理器,它作为 NVIDIA OFED 1的一部分安装。

OpenSM 包括子网管理器、背板管理器和性能管理器三个组件,绑定在交换机内部的必备部件。提供非常完备的管理和监控能力,如:设备自动发现、设备管理、Fabric可视化、智能分析、健康监测等等。

 


八、IB与ROCE分析对比

面对InfiniBand的赶超,以太网也没有坐以待毙。

2010年4月,IBTA发布了RoCE(RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问),将InfiniBand中的RDMA技术“移植”到了以太网。2014年,他们又提出更加成熟的RoCE v2

相同点:

相同的RDMA传输层标准,在同一个标准组织定义,使用相同的编程接口,共享相同的RDMA应用生态

不同点:

1.IB同子网包头信息短,有效载荷略高。IB采用信用机制实现流控,相比RoCE采用PFC流控对芯片缓存要求稍低。

2.ROCE具备以太和IP的优势:大规模网络、网络虚拟化、网络运维等。


九、InfiniBand的商用产品

产品目前更新至2024.11.22

IB交换机系列

网址链接:NVIDIA InfiniBand 交换机 | NVIDIA

QM8700:200G

QM9700:400G

X800:800G


IB网卡系列(均支持切换以太)

网址链接:NVIDIA InfiniBand 网卡 | NVIDIA

CX5:100G

CX6:200G

CX7:400G

CX8:800G

 NVIDIA Unified Fabric Manager (UFM)

UFM 平台可助力科研和行业数据中心操作人员对 InfiniBand 数据中心网络进行高效调配、监控、管理、预防性故障排除及维护。UFM 平台包含多个不同级别的解决方案和全面的功能集,可满足广泛的现代横向扩展数据中心需求。借助 UFM,您可以实现更高的网络资源利用率、获得竞争优势,并减少运营支出。

官方链接:NVIDIA Unified Fabric Manager (UFM) | NVIDIA

码字不易,谢谢点赞与关注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值