【RDMA】无损网络和PFC（基于优先级的流量控制）

最新推荐文章于 2025-02-22 10:45:05 发布

bdview

最新推荐文章于 2025-02-22 10:45:05 发布

阅读量1.7k

点赞数 4

文章标签：网络交换机队列以太网分布式

本文链接：https://blog.csdn.net/weixin_42319496/article/details/119371228

版权

本文介绍了基于优先级的流量控制PFC和显式拥塞通知ECN在RDMA无损网络中的作用。PFC通过8个虚拟通道实现精细流控，而ECN提供端到端的拥塞通知，两者结合确保网络高效、无损。然而，PFC可能引发死锁，ECN交互也存在延迟问题，需要适当调整策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：《我们为什么需要RDMA？为什么需要无损网络？》https://www.sohu.com/a/258041228_100289134

(Priority-based Flow Control，基于优先级的流量控制)

前言

RDMA技术：降低数据中心内部网络延迟，提高处理效率。

当前RDMA在以太网上的传输协议是RoCEv2，RoCEv2是基于无连接协议的UDP协议，相比面向连接的TCP协议，UDP协议更加快速、占用CPU资源更少，但其不像TCP协议那样有滑动窗口、确认应答等机制来实现可靠传输，一旦出现丢包，依靠上层应用检查到了再做重传，会大大降低RDMA的传输效率。

所以要想发挥出RDMA真正的性能，突破数据中心大规模分布式系统的网络性能瓶颈，势必要为RDMA搭建一套不丢包的无损网络环境，而实现不丢包的关键就是解决网络拥塞。

一、为什么会产生拥塞

产生拥塞的原因有很多，下面列举了在数据中心场景里比较关键也是比较常见的三点原因：

1.收敛比

进行数据中心网络架构设计时，从成本和收益两方面来考虑，多数会采取非对称带宽设计，即上下行链路带宽不一致，交换机的收敛比简单说就是总的输入带宽除以总的输出带宽。

交换机A：下行带宽480G，上行带宽240G，整机收敛比为2:1

交换机B：下行带宽1200G，上行带宽800G，整机收敛比为1.5:1

也就是说，当下联的服务器上行发包总速率超过上行链路总带宽时，就会在上行口出现拥塞。

2.ECMP

当前数据中心网络多采用Fabric架构，并采用ECMP来构建多条等价负载的链路，并HASH选择一条链路来转发，是简单的，但这个过程没有考虑到所选链路本身是否有拥塞，对于已经产生拥塞的链路来说，很可能加剧链路的拥塞。

3.TCP Incast

TCP Incast是Many-to-One(多对一)的通信模式，在数据中心云化的大趋势下这种通信模式常常发生，尤其是那些以Scale-Out方式实现的分布式存储和计算应用，包括Hadoop、MapReduce、HDFS等。

例如，当一个Parent Server向一组节点(服务器集群或存储集群)发起一个请求时，集群中的节点都会同时收到该请求，并且几乎同时做出响应，很多节点同时向一台机器(Parent Server)发送TCP数据流，从而产生了一个“微突发流”，使得交换机上连接Parent Server的出端口缓存不足，造成拥塞。