深度分析：智算中心建设 - 高速网络选型

OpenInfra

于 2024-08-22 09:00:00 发布

阅读量601

点赞数 22

文章标签：人工智能智算中心

本文链接：https://blog.csdn.net/OpenInfra/article/details/141362335

版权

在当前人工智能技术飞速发展的背景下，自然语言处理、计算机视觉、虚拟助手服务、模型算法在众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级，数据中心基础设施必须应对日益严苛的要求，特别是对于低延迟、高吞吐量网络的需求愈发迫切，以确保能够高效处理复杂且数据密集型的工作负载。

AIDC网络组网中最常用的GPU集群网络拓扑是胖树无阻塞网络架构，通过高速无损网络将GPU训练卡连接起来，实现并行计算任务之间的协同工作。

目前AIDC数据中心的高速无损网络主要有两种技术路线，IB（InfiniBand）和RoCE网络。

1.InfiniBand网络

在AI数据中心中，InfiniBand网络凭借其卓越的性能和可靠性备受瞩目。该网络通过专门设计的InfiniBand适配器或交换机实现高效的数据传输，InfiniBand网络可扩展性允许通过交换网络进行水平扩展，以满足多样化的网络需求。随着科学计算、人工智能（AI）和云数据中心的快速发展，InfiniBand在端到端高性能网络的HPC超级计算应用中越来越受到青睐。

InfiniBand交换机采用集中式管理机制，由子网管理器负责整个网络转发表的计算与分发工作，同时承担着配置InfiniBand子网内部特性的重要任务，例如分区策略和服务质量（QoS）。构建InfiniBand网络时，必须使用专为InfiniBand设计的电缆和光模块来确保交换机之间以及交换机与网卡之间的无缝连接。

InfiniBand网络解决方案特性

- 本征无损传输机制：InfiniBand网络创新性地采用了基于信用的信号控制策略，从底层设计上有效防止了缓冲区溢出和数据包丢失的问题。在数据发送前，发送端会确保接收端拥有充足的信用额度来处理相应数量的数据包。每条链路在InfiniBand架构中均预设了缓冲区，数据传输量严格受限于接收端当前可用的缓冲区容量。一旦接收端完成转发任务，即释放缓冲区，并实时更新并反馈当前剩余的缓冲区大小。这种链路级别的流量控制技术确保了发送端不会向网络中过度填充数据，从而有效地避免了因缓冲区满载而导致的数据包丢失。

- 拥塞控制机制：InfiniBand提供了一套全面且可扩展的服务质量（QoS）管理方法。InfiniBand的拥塞控制架构（CCA，Congestion Control Architecture）是一个精心设计的三阶段过程，用于有效管理网络拥塞事件。当交换机检测到拥塞状况时，它会启动前向显式拥塞通知（FECN，Forward Explicit Congestion Notification）机制，在数据包中标记相应的比特位。当数据包抵达目的适配器时，目的适配器会生成一个具有不同比特设置的数据包作为回应，即后向显式拥塞通知（BECN，Backward Explicit Congestion Notification），发送给源适配器。一旦发送方或源适配器接收到BECN，它会相应地减少数据包的发送速率，以缓解网络拥塞，从而确保带宽的确定性以及延迟的可控性。

- 自适应路由机制：InfiniBand网络采用了先进的自适应路由技术，支持针对每个数据包进行动态路径选择，其核心管理功能由子网管理器（SM）软件实现。这一集中式管理工具负责根据实时网络条件为交换机配置最佳路由选择。交换机ASIC在决策过程中，会优先选取最空闲的输出端口，以确保网络性能达到最优状态。在选择不同输出交换机端口时，会综合考虑出口端口的队列深度以及路径优先级，其中最短路径通常享有更高的优先级。这使得在网络大规模部署时能充分利用资源，实现最优性能表现。

全球知名芯片制造商NVIDIA，在推动高性能计算和AI领域发展的同时，也成为了提供一系列InfiniBand网卡解决方案的主要力量。NVIDIA ConnectX InfiniBand智能网卡支持更快的速度和创新的网络计算技术，实现了超强性能和可扩展性。

2.RoCE网络

RoCE v2网络采用全分布式架构设计，并由具备RoCEv2功能的NIC和交换机共同构建，通常以两层架构部署在数据中心环境中。

RoCE无损网络技术主要依赖数据链路层的PFC流量控制技术、网络层的ECN拥塞控制技术以及RDMA技术来构建“低延时、无丢包、高吞吐”的网络环境。

RoCE v2网络解决方案特性

- PFC（Priority-based Flow Control）是一种基于优先级的流量控制技术。PFC允许在一条以太网链路上创建8个虚拟通道，并为每条虚拟通道制定一个IEEE802.1P优先等级，允许单独暂停和重启其中任意一条虚拟通道，同时允许其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务，使其能够与同一接口上的其它流量类型共存。

- ECN（Explicit Congestion Notification，显式拥塞通知）定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息，然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

- 数据中心量化拥塞通知（DCQCN）是显式拥塞通知（ECN）和优先流量控制（PFC）两种机制的结合，旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时，优先使用ECN 来通知发送端降低传输速率，防止 PFC 的不必要激活，同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制，DCQCN 能够在保持网络高效运行的同时，避免因拥塞造成的数据丢失。

相比于InfiniBand，RoCE v2网络解决方案在灵活性和成本效益上展现出更多优势。该技术不仅能够构建高性能的RDMA（远程直接内存访问）网络环境，同时还能无缝融入传统以太网架构中。然而，在实际部署过程中，需要对交换机进行诸如Headroom预留、PFC（优先级流量控制）以及ECN（显式拥塞通知）等参数的精细配置，这可能会增加一定的实施复杂度。尤其是在大规模部署场景下，尤其是当涉及大量网络接口卡时，相较于InfiniBand网络，RoCE v2网络的整体吞吐性能可能略逊一筹。

RoCE网络利用RDMA技术实现了高效的数据传输，不必占用远程服务器的CPU周期，从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量，整体上提高了网络性能。RoCE方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施，这意味着企业无需额外投资于新设备或进行设备更换，就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要，使得RoCE成为提升智算中心网络性能的优选方案。

3.IB网络 vs RoCE网络

当前市场上，多家主流交换机供应商均支持RoCE协议，并提供了相应的解决方案。其中，NVIDIA推出的ConnectX系列网络适配器在与RoCE v2兼容性方面表现卓越，已在市场占有率上占据了显著地位。这意味着选择RoCE v2方案的企业能够在保持较高性价比的同时，享受到来自全球领先厂商的技术支持和服务保障。从技术层面剖析，InfiniBand通过整合多种创新技术手段，有效提升了网络数据转发效率、缩短了故障恢复时间、增强了网络扩展性，并简化了运维管理的复杂度。