Credit-based Flow Control的前世今生

OneFlow深度学习框架

于 2021-11-19 11:41:49 发布

阅读量1.3k

点赞数 2

文章标签：网络算法人工智能 java python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/121434150

版权

本文探讨了Credit-based Flow Control的概念及其起源，从TCP滑动窗口开始，讲述了它如何应用于网络流控，特别是在OneFlow框架中的应用。Credit-based Flow Control通过接收端的反馈来控制发送速率，防止数据溢出，这一思想在多个领域得到广泛应用，如PCIe、Intel QPI和分布式计算框架Flink等。文章还讨论了在ATM网络标准制定中，Credit-based Flow Control与Rate-based流控的论战，尽管在ATM网络中未被选中，但其理念仍影响着现代系统设计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

撰文 | 乔晶、姚迟

1

OneFlow 中的流控

OneFlow 团队此前发布的《仅此一文让您掌握OneFlow框架的系统设计》介绍了 OneFlow 是通过背压机制解决流控问题的。文中给出了两张流水线的示意图：

图：当训练是瓶颈时的时间线

图：当数据加载是瓶颈时的时间线

如上面两张图所示，虽然 DataLoading 的时间很短，但并不会无节制加载数据，而是当它的两个Regst被填满之后就会等待。

当 Training 是瓶颈时，Batch 3的数据在训练时，DataLoading 提前准备了 Batch 7 和 Batch 8 的数据，然后就等着。
当 Preprocessing 是瓶颈时，DataLoading 永远都比 Preprocessing 提前处理了两个 Batch 的数据。

这两张图简单地说明了，在去中心化、异步执行设计的 OneFlow 系统中，通过背压机制，系统会自动地照顾好处理速度最慢的那个单元，使得各个执行单元（我们称之为 Actor），都能够随之调节好运行节奏。

仔细思考一下，你会发现，这里的背压机制，似乎和大家熟知的 TCP 滑动窗口有异曲同工之妙。

确实，背压（Backpressure）机制，又叫 Credit-based Flow Control，是网络通信中解决流控问题的一种经典方案，它的前身就源于 TCP 滑动窗口。

这个思路特别简洁有效，后面我们会看到，基于相同原理，这个思路适用于任何流量控制方案，在很多硬件系统和软件系统的设计中，都有它的身影。

但是，你可能想象不到，这个简洁思路背后却有着不简单的身世。甚至，还引发过一场激烈的学术论战，并且在论战中还输了。虽然输了，Credit-based Flow Control 思想却在论战中得到了完善，后来在多个领域大放异彩。

今天，我们就来讲一讲它背后的原理，以及其跌宕起伏的故事。

2

什么是流控

网络流控（Network Flow Control）是网络中的一个基本功能，其目的是防止网络在拥塞的情况下出现丢帧。

在上面这张图中，假设在一对网络通信节点之间：

Sender 生产数据的速率是 2MB/s，Receiver 消费数据的速率是 1MB/s，数据在网络中传输的速率是 2MB/s。
两个节点各有一个数据缓冲区（Send Buffer/Receive Buffer)，大小均为 5MB。

可以推演出，由于 Sender 生产数据的速度比 Receiver 消费数据的速度快， 5s 后 Receive Buffer 就被装满了，这时会面临两种情况：

如果 Receive Buffer 是有界的，那么新到达的数据就只能被丢弃掉了。
如果 Receive Buffer 是无界的，那么 Receive Buffer 会持续扩张，最终会导致 Receiver 端内存耗尽。

简单总结一下，所谓流控，就是解决端到端的发送方和接收方速度不匹配的问题。或者更明确一点，就是解决 “Fast Sender Slow Receiver ” 的问题。

那么，流控方案有哪些？所谓流控方案，就是提供一套速度匹配措施，通过遏制 Sender 较快的发送速率，与 Receiver 较慢的读取速率相适应。

问题就转换成了，以怎样的方式遏制 Sender 的发送速率呢？常见的解决思路有两种。

思路一：简单粗暴地限速

Sender 以预先确定的速率发送数据。比如在 Sender 端实现一个限速器，将 Sender 的发送速率降到 1MB/s ，这样的话， Sender 端的发送速率跟 Receiver 端的处理速率就可以匹配起来了。

思路二：授权发送

Sender 不能直接发送，除非它已经从 Receiver 接收到一个关于可接受通信量的指示。这种量化方案保护了 Receiver 端不会内存溢出。

注意，这里的可接受通信量，常常被称为授权（Credit），它到底是什么呢？又和我们所说的 Credit-based Flow Control 有什么关系呢？

先卖一个关子。接下来我们将按照时间顺序，讲述 Credit-based Flow Control 的身世。实际上，这两种思路，正是我们将要看到的一场论战中冲突对战的两派。问题的答案，也将在故事中揭晓。

2

Credit-based Flow Control 的故事

TCP 滑动窗口

1974年，TCP/IP 协议的设计者，被称作互联网之父之一的 Vinton G. Cerf，发表了 TCP/IP 协议的奠基论文࿰

最低0.47元/天解锁文章

OneFlow深度学习框架

博客等级

码龄5年

企业官方账号

382
原创

2876
点赞

4169
收藏

5853
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

用初中数学理解LLM工作原理
Dongwoo Jeong: 我对中国的初中生感到威胁，因为我拥有韩国的“物理学硕士”学位。这很容易理解。不过，我想总结一下这篇文章的一些小遗憾：在开始之前，如果有一个关于LLM组件的简单概述，会更容易理解。对于初学者来说，应该先有概述再介绍，但一开始就直接介绍，让我很难知道自己正在学习LLM的哪一部分。 1. 归一化位置（Norm）在神经网络训练中，归一化用于提高稳定性和性能。 GPT主要使用预归一化结构（在激活函数之前应用归一化）。归一化分为后向和前向归一化。 2. 激活函数（Activation Function）激活函数为神经网络引入非线性，帮助学习模式（ReLU是典型代表）。 GPT使用GELU，它比ReLU具有更平滑的过渡模式。 3. 位置编码（Positional Encoding） Transformer模型与循环神经网络（RNN）不同，无法直接处理顺序信息，因此通过位置编码传递位置信息。 GPT最近使用RoPE（旋转位置编码）作为相对位置编码。 4. 注意力机制（Attention Mechanism）注意力机制从输入文本中提取重要部分的信息。 GPT使用带有因果掩码的自注意力机制（Causal Masking）。 5. 混合专家模型（MoE）混合专家模型通过创建多个“专家”抽象层，输入令牌由路由网络选择并传递给特定层。主流架构包括：仅编码器（Encoder-only，如BERT）仅解码器（Decoder-only，如GPT系列）编码器-解码器（Encoder-Decoder，如T5）如果有这样的概述就更好了。非常感谢您用非常易懂的方式解释了原理。
用初中数学理解LLM工作原理
云淡风轻2.0: 这文章就是用ai写的，你能看懂才怪了
用初中数学理解LLM工作原理
西格玛man: 为什么我看不懂中文，作者能再润色一下语言吗，太复杂了
Cerebras：挑战英伟达，全球最快AI推理芯片的“魔法”
uttyuiuoi: 一个实验产品和人家量产的对比
开源AI背后的商业密码
深圳王哥: 这篇文章真是干货满满，作者对技术细节的把握和解析非常到位，让我对这个主题有了更深入的理解。期待作者能分享更多这样的高质量内容！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。