云星数据---Apache Flink实战系列(精品版)】：Flink其他操作及内容003-flink的背压机制001

最新推荐文章于 2017-11-22 09:51:43 发布

李国华技术博客

最新推荐文章于 2017-11-22 09:51:43 发布

阅读量1w

点赞数 2

分类专栏： bigdata cloudcomputing flink 文章标签：数据分布式

本文链接：https://blog.csdn.net/liguohuaBigdata/article/details/78599360

版权

bigdata 同时被 3 个专栏收录

187 篇文章 2 订阅

订阅专栏

cloudcomputing

183 篇文章 0 订阅

订阅专栏

flink

86 篇文章 57 订阅

订阅专栏

《flink中的背压的处理原理》

什么是背压问题

流系统中消息的处理速度跟不上消息的发送速度，导致消息的堆积。如果系统能感知消息堆积，并调整消息发送的速度。
使消息的处理速度和发送速度相协调就是有背压感知的系统。背压如果不能得到正确地处理，可能会导致资源被耗尽或者
甚至出现更糟的情况导致数据丢失。flink就是一个有背压感知的基于流的分布式消息处理系统。
这里写图片描述
举例说明：
1.正常情况：消息处理速度>=消息的发送速度，不发生消息拥堵，系统运行流畅

这里写图片描述

2.异常情况：消息处理速度< 消息的发送速度，发生了消息拥堵，系统运行不畅。

这里写图片描述

消息拥堵可以采取两种方案
a.将拥堵的消息直接删除，将会导致数据丢失，在精确到要求高的场景非常不合适
b.将拥堵的消息缓存起来，并告知消息发送者减缓消息发送的速度。
3.处理方法：将缓冲区持久化，以方便在处理失败的情况下进行数据重放。
有些source本身提供持久化保证，可以优先考虑。例如： Apache Kafka是一个很不错的选择，可以背压从sink到source
的整个pipeline,同时对source进行限流来适配整个pipeline中最慢组件的速度，从而获得系统的稳定状态。

这里写图片描述

flink中的背压

Flink使用分布式阻塞队列来作为有界缓冲区。如同Java里通用的阻塞队列跟处理线程进行连接一样，一旦队列达到容量上限，
一个相对较慢的接受者将拖慢发送者。
举例说明:
图中有一个简单的flow，它由两个task组成

这里写图片描述

1、记录“A”进入Flink，然后被Task 1处理
2、Task 1处理后的结果被序列化进缓冲区
3、task 2从缓冲区内读取一些数据，缓冲区内将有更多的空间。
4、如果task 2处理的较慢，task1的缓存区将很快填满。发送速度随之下降。
注意：为了记录能被Flink处理，缓冲区必须是可用的

李国华技术博客

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
云星数据---Apache Flink实战系列(精品版)】：Flink其他操作及内容003-flink的背压机制001

《flink中的背压的处理原理》什么是背压问题流系统中消息的处理速度跟不上消息的发送速度，导致消息的堆积。如果系统能感知消息堆积，并调整消息发送的速度。使消息的处理速度和发送速度相协调就是有背压感知的系统。背压如果不能得到正确地处理，可能会导致资源被耗尽或者甚至出现更糟的情况导致数据丢失。flink就是一个有背压感知的基于流的分布式消息处理系统。举例说明： 1.正常情况：消息处理速
复制链接

扫一扫

专栏目录