1. 数据中心量化拥塞通知 (DCQCN)
DCQCN:Congestion Control for Large-Scale RDMA Deployments - 简书
【RoCE】拥塞控制机制(ECN, DC-QCN)_dcqcn拥塞-CSDN博客
2. 优先级的拥塞控制PFC
存在死锁和风暴问题,基于on-off机制,达到on/off门限时,通过pause帧传输控制
3. timely--数据中心
作者通过对延迟梯度或排队随时间变化的微分做出反应,以在提供高带宽的同时保持较低的数据包延迟。[SIGMOD 2015] TIMELY RTT-based Congestion Control for the Datacenter。简单的数据包延迟(以主机的往返时间来衡量)是一种有效的拥塞信号,无需交换机反馈
sigcomm2015 TIMELY: RTT-based Congestion Control for the Datacenter 论文阅读笔记_timely sigcomm-CSDN博客
Virtual Channel与Flow Control与Deadlock | 生命不息 折腾不止
4.DCTCP--数据中心
RDMA拥塞控制
流量控制:RDMA网络中的流量控制是一种基本的拥塞控制机制,用于确保发送方不会以太快的速度发送数据,从而超负荷了网络。RDMA可以使用不同的流控制机制,如基于信令或基于令牌的机制,来确保数据发送速率适应网络容量。
拥塞检测:RDMA网络中的拥塞检测是指检测网络中是否存在拥塞的迹象。这可以通过监视网络的性能指标(如延迟、丢包率、带宽利用率)来实现。如果检测到拥塞,就需要采取相应的措施来减轻拥塞,例如降低发送速率或重新路由数据。
拥塞控制算法:RDMA拥塞控制算法是用于管理和减轻拥塞的具体策略。一些常见的拥塞控制算法包括基于反馈的算法,如ECN(显式拥塞通知),以及基于源的算法,如基于窗口的拥塞控制。这些算法根据网络状态来自动调整发送速率以防止拥塞。
负载均衡:在RDMA网络中,负载均衡是一种重要的策略,用于将数据流量均匀分配到不同的网络路径或节点,以避免某一路径或节点成为瓶颈。负载均衡可以减少拥塞的可能性,从而提高整体性能。
QoS(Quality of Service)设置:为了确保关键应用程序的性能,RDMA网络通常支持QoS设置,这意味着可以为不同类型的数据流量分配不同的服务质量级别。这有助于确保关键任务的数据传输不会受到非关键任务的拥塞影响。
拥塞检测
基于丢包检测:对RDMA,等丢包后再进行控制成本太高了(重发太麻烦了)
基于ECN检测:
ECN(Explicit Congestion Notification)是 IP 头部 Differentiated Services 字段的后两位。
如果通信双方都支持ECN,当拥塞出现时,交换机会更新ECN为11,再转发下一跳。接收方可以根据 ECN 标志向发送方汇报拥塞情况,调节发送速率。
(RED:Random Early Drop,交换机监控当前队列深度,拥塞了就开始随机丢包;当RED和ECN同时开启,不随机丢包,随机设置ECN)只能反应超过队列阈值的包数量,无法精确量化延时。
基于RTT检测:RTT反应端到端的网络延迟。
HPCC,High Precision Congestion Control,高精度拥塞控制
HPCC 是一个发送者驱动的CC框架。发送方发送的每个数据包都将得到接收方的确认。在数据包从发送方传播到接收方的过程中,路径上的每个交换机都利用其交换 ASIC 的 INT 功能插入一些元数据,这些元数据报告数据包出口端口的当前负载,包括时间戳 (ts)、队列长度 (qLen)、传输字节数 (txBytes) 和链路带宽容量 (B)。当接收方收到数据包时,它将交换机记录的所有元数据复制到它发送回发送方的 ACK 消息中。发送方在每次收到带有网络负载信息的 ACK 时决定如何调整其流量。