高速网络技术变革,RoCE取代IB之路

166 篇文章 0 订阅
166 篇文章 0 订阅

68c51bf065682bc94b0a5c19166de098.jpeg

RoCE取代IB:为何之前是IB,现在是RoCE?

   

3c175cb20545c8fed1e24b7a8affcb83.jpeg

以太网在AI算力中的Why、How和What”。

超以太网联盟(UEC)由Linux基金会和联合开发基金会共同发起,旨在超越传统以太网功能。通过RDMA和RoCE等技术,UEC为HPC和AI计算提供高性能、分布式和无损传输层。其创始成员包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软等业界领军企业。

至2024年3月19日,UEC已壮大其队伍,新增45名成员。同时,我们发布了UEC规范1.0白皮书,详细解读了其八大功能以及超以太网传输(UET)的卓越性能。

2024年《IPv6+创新与标准技术合集》中国边缘云市场报告:1. IPv6+的创新与标准; 2. IPv6赋能智算网络,展望《VMware Tanzu容器技术合集》。探讨基于IPv6网络的移动目标防护、访问控制及融合策略。揭秘空间数据智能:从概念到挑战。全面解读泛在计算安全。

5433b85980bcbb718d30604740380e1d.jpeg

博通,全球领先的有线和无线通信半导体巨头,已在业界砥砺前行60载,凭借深厚的技术底蕴和丰富的产品线,稳居行业领先地位。在RoCE领域,博通全面布局控制器、适配器、NIC、交换机四大关键环节,已推出超过30款优质产品。近期,博通更是凭借第四代RoCE技术,推出单端口400GbE以太网适配器N1400GD和单端口400GPCIe以太网NIC P1400GD,这两款产品主要服务于AI、云计算、高性能计算以及存储网络的构建,再次彰显了博通在通信领域的创新实力。

95e1aebfb06175821fff8942c3604720.jpeg

英伟达在 NIC 和交换机方向进行布局,尽管此前英伟达是 InfiniBand 的主要推动者及供应商,但也持续在 RoCE 方向布局,陆续推出 Spectrum SN4000 和 Spectrum SN5000 交换机则,并于今年推出与 IB 新产品同规格的 Spectrum X800 交换机,同时计划于 2025 年推出 512 端口的 Spectrum UltraX800 交换机,于 2026 年推出带宽相比 X800 翻倍的 X1600。

26351304f1cd14fd84ba5afe564b912e.jpeg

自2020年以来,Meta公司一直专注于运营基于RoCE的分布式训练集群。然而,在早期阶段,公司面临着一致性的挑战。为了实现RoCE在AI计算应用中的落地,Meta作为创始成员之一,成立了超以太网联盟,并积极推动RoCE的部署。通过使用Arista 7800和Wedge 400等设备构建的RoCE网络,Meta成功实现了400G的互连。目前,这一技术已经成功应用于Llama3集群中。

9bbf7868b98075356a4c30456f059f54.jpeg

RDMA技术,凭借其高并发、低延迟的特性,优于传统的TCP/IP,成为AI计算的首选。相较于TCP/IP的软硬件架构,RDMA直接通过网卡访问GPU显存数据,绕过操作系统和CPU,实现高吞吐、低延迟的网络通信。这种优势使其在大规模并行AI计算集群中表现出色。

cf40bb189a59a95039709fe8e875b856.jpeg

74f08a83de78bf9f4236085f0c94109b.jpeg

Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP,三款支持RDMA的网络各具特色。它们分别代表着高速、高效和灵活的数据传输方式。

Infiniband:专为RDMA设计,硬件级保障可靠传输,应用效果卓越。无需额外研发,但需配备IB网卡和交换机支持。尽管成本略高,但性能无可挑剔。

RoCE:采用以太网和UDP传输层协议设计,资源消耗降低。仅需普通以太网交换机,但需配备专门支持RoCE的网卡。

iWARP:基于以太网传输层TCP协议,实现可靠的数据传输。相较于RoCE,在大规模组网中,iWARP依赖的众多TCP连接会消耗大量内存资源(而RoCE的UDP连接则无需如此),因此对系统规格的要求更高。尽管可以采用普通的以太网交换机,但必须配备专门支持iWARP的网卡。

dca4b73c3cc4ec6808b83eb467ad294f.jpeg

在AI算力建设的浪潮中,IB曾被视为早期局部最优解,而RoCE则成为更广泛的最优解。随着AI算力建设的加速推进,高吞吐、低延迟的网络需求催生了对支持RDMA网络通信的需求。英伟达H系列GPU的持续供不应求现象也反映出,各算力投资方在短时间内实现快速、高质量、高数量的算力落地是核心诉求。因此,英伟达的GPU与天然适配RDMA的IB网络架构相结合,成为了当时的最优解。

长远来看,以太网/RoCE在云计算领域的应用基础更为深厚,实现成本更低。随着技术的日益成熟和推理需求的崛起,以太网将逐步成为AI算力舞台的核心。


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科技互联人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值