SparkStreaming 反压机制

最新推荐文章于 2022-09-20 13:28:34 发布

karanz

最新推荐文章于 2022-09-20 13:28:34 发布

阅读量235

点赞数

分类专栏： spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/baidu_40619129/article/details/106144258

版权

当批处理时间大于批次间隔时，SparkStreaming可能出现数据堆积，导致Executor OOM。从Spark 1.5开始，引入反压机制动态预估下个批次的速率，避免资源过度消耗。开启反压机制需至少处理一个批，并通过配置如`spark.streaming.kafka.maxRatePerPartition`参数控制摄入速率，确保应用在反压机制生效前不会崩溃。

摘要由CSDN通过智能技术生成

SparkStreaming 反压机制

当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval，即 BatchDuration)时,说明处理数据的速度小于数据摄入的速度，持续时间过长或源头数据暴增，容易造成数据在内存中堆积，最终导致Executor OOM或任务奔溃。
Spark 1.5以前版本，基于Receiver的数据源，可以通过设置spark.streaming.receiver.maxRate来控制最大输入速率；若是基于Direct的数据源(如Kafka Direct Stream)，则可以通过设置spark.streaming.kafka.maxRatePerPartition来控制最大输入速率。当然，在事先经过压测，且流量高峰不会超过预期的情况下，设置这些参数一般没什么问题。但最大值，不代表是最优值，在spark1.5之后的版本可以通过设置反压机制进行动态的预估下个批次的速率。
开启反压机制

//启用反压
conf.set("spark.streaming.backpressure.enabled","true")
//最小摄入条数控制
conf.set("spark.streaming.backpressure.pid.minRate","1")
//最大摄入条数控制
conf.set("spark.streaming.kafka.maxRatePerPartition","12")

使用说明：

反压机制真正起作用时需要至少处理一个批：由于反压机制需要根据当前批的速率，预估新批的速率，所以反压机制真正起作用前，应至少保证处理一个批。
如何保证反压机制

最低0.47元/天解锁文章

karanz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming 反压机制

SparkStreaming 反压机制当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval，即 BatchDuration)时,说明处理数据的速度小于数据摄入的速度，持续时间过长或源头数据暴增，容易造成数据在内存中堆积，最终导致Executor OOM或任务奔溃。Spark 1.5以前版本，基于Receiver的数据源，可以通过设置spark.streaming.receiver.maxRate来控制最大输入速率；若是基于Direct的数据源(如Kafka
复制链接

扫一扫

专栏目录