dctcp 可扩展、低时延图解

最新推荐文章于 2024-04-27 14:30:56 发布

dog250

最新推荐文章于 2024-04-27 14:30:56 发布

阅读量3.8w

点赞数 23

文章标签：网络 tcp/ip

本文链接：https://blog.csdn.net/dog250/article/details/135394122

版权

理想 reno 和理想 dctcp 的单流 cwnd-time 演化图如下：
在这里插入图片描述

很直观地展现出 dctcp 锯齿小很多，锯齿小意味着高效。

dctcp 利用交换机反馈而来的 ecn 可精确计算导致排队超过 k 的报文比例，减去这一比例的 inflight 就是合适的。但 dctcp 在 reno aimd 的动态过程之上，实际的多流情况很难在图像上标识，还要结合算术上分析：
在这里插入图片描述

阴影小三角形和梯形 abcd 的面积之比就是 alpha： $\dfrac{\frac{1}{2}}{\frac{((w+1)+(w+1)(1-\alpha/2))*(w+1)*\alpha/2}{2}}=\alpha$ ，现代网络的 cwnd 不会太小，可忽略 w 低阶项，解得 $\alpha=\sqrt{\dfrac{2}{w}}$ ，那么 (w + 1) - (w + 1)*(1 - alpha / 2) 就是锯齿的大小，将 alpha 代入，得到： $(w+1)-(w+1)*(1-\alpha/2)=\sqrt{\dfrac{2(w^2+2w+1)}{w}}/2\approx\dfrac{\sqrt{2w}}{2}$ 而对于标准 reno aimd，对应的上述值是 $\dfrac{w+1}{2}$ 。简单比较一下二者：
在这里插入图片描述

简单的同步流场景，reno tcp 的最大 cwnd = (C * RTT + buffer) / N，而 dctcp 最大 cwnd = (C * RTT + K) / N。虽然只有一字之差，但 dctcp 并非只是 buffer = K 的替代，这正体现在上图的绿线中，这个根号 2w 的关系就来自于 dctcp 交换机反馈的精确信息，而如果没有这个信息，如黑线所示，reno 只能盲目以 0.5 为 md 系数猛降 cwnd 而造成大锯齿，cubic 虽改观，但本质不变。

从上述分解，可得 dctcp 拥塞周期为： $T_{dctcp}=\dfrac{\sqrt{2(C*RTT+K)/N}}{2}$ ，对应于 reno tcp，拥塞周期为： $T_{reno}=\dfrac{C*RTT+BSize}{2N}$ ，C * RTT 为定值，姑且就让 BSize = K，变化 N，看看 dctcp 和 reno 拥塞周期的区别：
在这里插入图片描述

dctcp 的拥塞周期不随 N 变化，也不随 buffer 变化，这是 dctcp 可扩展的一面，另一面，观察队列变化可见排队时延的变化，对于 dctcp，queue 为： $N*((w+1)-(w+1)*(1-\alpha/2))\approx\dfrac{N*\sqrt{2w}}{2}=\dfrac{\sqrt{2N(C*RTT+K)}}{2}$ ，N 为流数量，开个根号就啥也没了，时延相对流的数量变化相当平缓，而对于 reno tcp，queue 完全受 buffer 限制，在 buffer 允许情况下，流数量越多，queue 越长，时延随流数量增加而明显增加。这就是 dctcp 的可扩展性的全部。

从以上分析可自然而然得到 dctcp 低时延结论，再次看 dctcp 和 reno tcp 的 queue 长度变化， $QL_{dctcp}=\dfrac{\sqrt{2N(C*RTT+K)}}{2}$ ， $QL_{reno}=\dfrac{C*RTT+BSize}{2}$ ，将 N 等效为 BSize，可见 dctcp 队列的变化比 reno tcp 慢得多，很小的 K 值保持很小的排队时延就能容忍很宽的 C * RTT 范围，与此能力相对，reno tcp 需要 BSize 线性同步于 C * RTT，如果 C * RTT 很大而没有足够大的 buffer 与之匹配，reno aimd 一下子把 cwnd 降一半，把 inflight 降到不足 C * RTT，带宽将得不到有效利用。

我们发现，dctcp 的结论竟然就是异步 reno aimd 的结论，参见 dcn 交换机 buffer 的平方反比律。

大致就这么多。

如果把 dctcp 搬到广域网，满足 l4s 框架的交换机替代可 ecn 的 dcn 交换机，在 rtt 动态范围很大的广域网场景，配合 rtt-independence 特性解决小 rtt 流量侵略性问题： $m\times increasement_{perACK}=\dfrac{1}{W_{virt}}$ ，所以， $increasement_{perACK}=\dfrac{1}{m}\dfrac{1}{W_{virt}}=\dfrac{1}{m}\dfrac{1}{C*RTT_{virt}}=\dfrac{1}{m}\dfrac{1}{C*m*RTT}=\dfrac{1}{m^2}\dfrac{1}{W}$ ，典型的一个 bdp 不变，把宽拉成长的操作。这就是一个低时延，低丢包，可扩展的算法，tcp prague，当然，它才刚起步。

我曾经对减小锯齿的方向不看好，因为我没有想到可以靠网络反馈信息，在纯端到端约束下，纯靠 capacity-search 的 aimd 变体根本无法减小锯齿，当它变钝，它必变长，当它变尖，它必变深，拉扯而已，却始终无法既短又钝，既尖又浅。vegas 在另一个方向也有时延不可扩展的问题难以解决。

随着带宽逐渐丰盈，应用也逐渐丰富，实时应用基本取代了离线应用，人们对时延的要求超过了对带宽的要求，宁取低时延而无需高带宽，带宽和时延的需求是不对称的，正如总量和种类的需求不对称一样，当人们吃饱了时，就无需越来越多的大米小麦了，但对饮食种类的需求是无止境的。

在这背景下，任何阻碍低时延的障碍都应被清除。起初人们认为网络分层模型是一个好模型，当时互操作大于一切，而如今低时延大于一切时，谁还在乎分层。网卡都可以 offloading tcp 了，交换机为什么不能呢。我在前几天评论到，在 rfc9000 quic 之前，人们把 quic 视作应用层，在 rfc9000 之后，quic 就无层了。

浙江温州皮鞋湿，下雨进水不会胖。

dog250

关注

23
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
dctcp 可扩展、低时延图解

将 N 等效为 BSize，可见 dctcp 队列的变化比 reno tcp 慢得多，很小的 K 值保持很小的排队时延就能容忍很宽的 C * RTT 范围，与此能力相对，reno tcp 需要 BSize 线性同步于 C * RTT，如果 C * RTT 很大而没有足够大的 buffer 与之匹配，reno aimd 一下子把 cwnd 降一半，把 inflight 降到不足 C * RTT，带宽将得不到有效利用。这就是一个低时延，低丢包，可扩展的算法，tcp prague，当然，它才刚起步。
复制链接

扫一扫