【网络】超以太网联盟 UEC|Ultra Ethernet|下一代 “RoCE” 协议--编辑中

目录

术语

简介

超以太网协议栈

协议栈概览

协议栈说明

物理层

链路层

传输层(UET,新一代协议栈的核心)​​​​​​​

软件层:Extended Libfabrics 2.0

未来 AI 和 HPC 网络的关键需求


术语

UEC: 超级以太联盟

UET: 超级以太传输协议

Tail latency: 尾部延迟,(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。

简介

什么是UEC:超以太网联盟(Ultra Ethernet Consortium,简称UEC),一个推动以太网技术在高性能计算(HPC)、人工智能(AI)和云计算等领域发展的行业组织。

什么需要UEC:

      当前高速网络集群使用RDMA有一些问题,多个厂商组成UEC 提出一种“升级版”的以太网通信协议栈来代替RDMA。

超以太网协议栈

协议栈概览

▣ 物理层与传统以太网完全兼容,可选支持FEC(前向纠错)统计功能

▣ 链路层 可选支持链路层重传(LLR),并支持包头压缩,为此扩展了LLDP的协商能力

▣ 网络层 依然是IP协议,没有变化

▣ 传输层 是全新的,作为UEC协议栈的核心数据包传输子层(Packet Delivery)和消息语义子层(Message Semantics)。包传输子层实现新一代拥塞控制、灵活的包顺序等功能,消息语义子层支持xCCL和MPI等消息。可选支持安全传输。另外,[在网集合通信](In Network Collective,INC)也在这一层实现

 软件API层。提供UEC扩展的Libfabrics 2.0

​​​​​​​

协议栈说明

物理层

UEC 1.0规范下的物理层与传统以太网(符合IEEE802.3标准)完全兼容,支持每通道100Gbps和200Gbps速率,在此基础上实现800Gbps和更高的端口速率。

另外可选支持物理层性能指标统计功能(PHY metrics)。这些指标基于 FEC 码字进行计算,不受流量模式和链路利用率的影响。估计算法基于FEC错误计数器的数据,从而得出不可纠正错误率(UCR )和数据包错误平均间隔(MTBPE)。这些指标衡量了物理层的传输性能和可靠性,用于上层的遥测和拥塞控制等。为了支持新的 UEC 链路层功能,UEC规范中也对协调子层(RS)进行了相应的修改。

链路层

UEC链路层最大的变化是引入了LLR(Link Level Retry)协议它可以让以太网不依赖PFC,实现无损传输。

LLR 机制是基于帧的。每个帧都分配了一个序列号,接收端成功接收这一帧后,检查帧的序列号是否符合预期,如果正确,发送确认消息(ACK),如果发现帧乱序或者丢失,则发送否定确认消息 (NACK)。发送端具有超时机制,用于保证在 NACK 丢失时重传。

传输层(UET,新一代协议栈的核心)​​​​​​​

前文提过,传统的RDMA网络传输层(包括IB和RoCE)在多路径传输、负载分担、拥塞控制以及参数调优等方面存在着不足之处。随着AI/HPC集群规模增长,网络的确定性和可预测性越来越困难,需要全新的方法来解决。

UEC传输层(UEC Transport Layer,简称UET)运行在IP和UDP协议之上, 支持实现以下几大技术目标:

▣ 支持高达 100 万个 GPU/TPU 的算力集群

▣ 往返时间低于 10μs

▣ 单接口带宽800Gbps及以上

 网络利用率超过85%

选择性重传(Selective Retransmit)

传统传输协议,如TCP需要严格的传输顺序,并采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,则从这个数据包起的所有数据包都要重传。这让偶尔的传输错误被放大,加剧了网络拥塞。UEC采用选择性重传机制,仅传输错误的数据包。

乱序交付(Out-of-Order Delivery)

UET不仅支持有序传输,也支持无序传输。这是因为现代网络中通常有多路径存在,同一个流的数据包经过不同路径传输,就可能造成乱序。如果还要求严格的顺序传输,就无法利用多路径来实现负载分担。此外,选择性重传也需要无序传输的支持。为了实现无序传输,需要接收方有更大的数据包缓冲区,从而将乱序的数据包组成一个完整的RDMA消息。

UET支持四种传输方式:

▣ ROD (Reliable Ordered Delivery)

– 需要拥塞控制、有序、可靠、无重传(依旧采用Go-Back-N)

▣ RUD (Reliable Unordered Delivery) 

– 需要拥塞控制、无序、可靠、无重传

▣ RUDI (RUD for Idempotent Operations)

– 可选拥塞控制、无序、可靠、重传

▣ UUD (Unreliable Unordered Delivery) 

– 可选拥塞控制、无序、不可靠、重传

包喷洒(Packet Spraying)

包喷洒是一种基于包的多路径传输。由于传统传输协议不支持无序传输,同一个数据流必须按照同一个路径传输,否则就会造成乱序,引发重传。而在AI/HPC应用中,存在大量的“大象流”,它们数据量大、持续时间长,如果能使用多路径传输一个流,将显著提高整个网络的利用率。

由于支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

拥塞控制(Congestion Control)

UET 拥塞控制包含以下重要特性,由端侧硬件和交换机配合完成,有效减小了尾部延迟。

▣  Incast管理。它用于解决集合通信(Collective)中下行链路上的扇入问题。AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送者同时向一个接收者发送流量,就会产生Incast(多打一)拥塞。

▣  速率调整加速。现有的拥塞控制算法,在发生网络拥塞后调整速率的过程较长,而 UET 可以快速上升到线速。方法是测量端到端延迟来调节发送速率,以及根据接收方的能力通知发送方调整速率。

▣  基于遥测。源自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现响应速度更快的拥塞控制。

▣  基于包喷洒的自适应路由。当拥塞发生时,通过包喷洒技术将流量重新路由到其它路径上,绕过拥塞点。

端到端的安全

UEC在传输层内置安全。它是基于作业(Job)的,可以对整个作业的流量进行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,减小安全加密的开销,提供可扩展安全域,并且可以由硬件卸载。

在网计算(In Network Collectives)

在网计算最早应用在HPC集群,业界主要有两个思路,一是基于网卡的,二是基于交换机。

UEC V1.0 的目标是后者,即将集合操作卸载到各级交换机上完成,避免过多的收发次数,降低节点交互频率和处理时延开销,减少约一半数据传输量,从而加速All-Reduce操作。

在部署实现上,目前AI智算领域唯一大规模商用的案例仅有英伟达的SHARP(在ASIC层面实现的硬件加速),以太网设备厂家仍处在探索阶段,例如将算力内置于交换机或外接,甚至P4可编程都是可能的思路方向。

软件层:Extended Libfabrics 2.0

在软件层,UEC提供简化的API。它简化了RDMA操作,并为AI和HPC应用提供专用的API,如xCCL, MPI, PGAS和OpenShmem等。

硬件升级:支持UEC的交换机和网卡

UEC在规范中定义了支持超级以太网交换机的架构,可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上支持INC和SDN控制器;数据平面升级了SAI(Switch Abstraction Interface)API调用硬件提供的INC等能力。

UEC同样定义了网络端点(Fabric End Point)的软硬件架构。在硬件层,网卡升级支持UEC功能。在操作系统内核态,实现网卡驱动。在用户态,基于libfabric扩展实现INC管理等功能,支持上层的xCCL/MPI/SHMEM等应用。

总的来说,UEC v1.0规范重构了数据中心以太网以完全替代传统的RDMA网络,用更高的性能、更低的成本实现稳定可靠、具有百万节点的AI/HPC集群。

星融元RoCE交换机与UEC

作为UEC成员单位,星融元提供的超低时延RoCE交换机(CX-N系列)全系采用高性能的标准白盒网络硬件,搭载为生产环境深度调优的企业级SONiC发行版——多项 Easy RoCE 特性,全面兼容现有规范并提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。

UEC(UET)和ROCE比较

UET(Ultra Ethernet Transport,超以太网传输)和 RoCE(RDMA over Converged Ethernet)都是旨在提高网络性能的协议。


改进与目标:UET 作为下一代应用于 AI 超算和 HPC 的网络协议,旨在解决 RoCE 网络中的一些局限性,例如队头堵塞和在有损网络中的表现问题。


多路径与数据包喷洒:UET 引入了多路径和数据包喷洒技术,能够充分利用高带宽通信网络,而无需复杂的负载平衡算法。
播送管理机制:UET 提供了减少掉线的机制,并支持对 API 进行无序数据包发送,从而提升网络并发性能。
扩展性和安全性:UET 支持数万个计算节点共享密钥,符合大规模训练和推理的安全工程需求,同时也考虑到了隐私保护和内容监管的需求。


对比总结


灵活性:UET 相对于 RoCE 更加灵活,因为它设计时考虑到了有损网络环境下的操作,提供了更好的容错能力。
复杂度:由于 RoCE 需要维护无损网络,因此在网络配置和管理上可能更为复杂。而 UET 通过其多路径和数据包喷洒技术简化了这一过程。


性能:两者都追求高性能,但 UET 在处理网络拥塞和数据包丢失方面具有更先进的机制,可以提供更加稳定的性能。


安全性:UET 特别强调了安全工程的设计,包括高效的API会话管理和数据保密措施,这是RoCE所不具备的特性。


总之,虽然 RoCE 已经是高性能网络中的一个重要标准,但 UET 试图在其基础上进一步发展,提供更高的灵活性、稳定性和安全性,以满足未来AI和HPC应用的需求。

未来 AI 和 HPC 网络的关键需求

为了实现低尾延迟,UEC 规范通过满足下一代应用程序的以下关键网络要求实现了显著的改进:

  • 多路径和数据包喷射
  • 灵活的交付顺序
  • 现代拥塞控制机制
  • 端到端遥测
  • 更大规模、更稳定、更可靠

参考

即将推出的超级以太网联盟(UEC)规范概述和动机https://cloud.tencent.com/developer/article/2470358

揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4) https://baijiahao.baidu.com/s?id=1816130155510499249

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值