Spark Streaming 数据限流简述

最新推荐文章于 2022-09-20 13:28:34 发布

大数据基础入门教程

最新推荐文章于 2022-09-20 13:28:34 发布

阅读量374

点赞数

文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mnbvxiaoxin/article/details/104196952

版权

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；

流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；

由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；

在Spark Streaming中不同的数据源采用不同的限速策略，但无论是Socket数据源的限流策略还是Kafka数据源的限流策略其速率（rate）的计算都是使用PIDController算法进行计算而得来；

下面从源码的角度分别介绍 Socket数据源

与

Kafka数据源

的限流处理。

速率限制的计算与更新

Spark Streaming的流处理其实是基于微批处理(MicroBatch)的，也就是说将数据流按某比较小的时间间隔将数据切割成为一段段微批数据进行处理；

添加监听器

StreamingContext调用Start()启动的时候会将速率控制器（rateController）添加到StreamingListener监听器中；

当每批次处理完成时将触发监听器（RateController），

最低0.47元/天解锁文章

大数据基础入门教程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming 数据限流简述

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。