SparkStreaming的backpressure的使用

最新推荐文章于 2021-11-03 10:37:31 发布

TheTrulyAtom

最新推荐文章于 2021-11-03 10:37:31 发布

阅读量647

点赞数

分类专栏： spark kafka

本文链接：https://blog.csdn.net/weixin_36585549/article/details/104835396

版权

kafka 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

spark

6 篇文章 0 订阅

订阅专栏

之前在使用spark streaming消费kafka数据时，为了防止每次从kafka获取的数据过多，设置了spark.streaming.kafka.maxRatePerPartition的大小，这样每次从kafka获取到的最大数据就可以为“topic个数*kafka每个topic分区个数*maxRatePerPartition”。这样似乎可以防止spark一次性读入的数据太多。然鹅，带来了一些问题。
1.例如设置spark截取离散流的时间为5s，最理想的情况下，spark每5s就会处理这一批数据。那么问题来了，如果5s之内，如果这批数据还处理不完，下一批已经生成了，于是下一批只能等。长此以往，就会有越来越多的作业在后台堆积。这些堆积的数据，如果一直放在内存，很可能会导致OOM，如果放在磁盘，又会导致后面从磁盘读取要耗费时间。
2.这个maxRatePerPartition是我自己估算的，如果kafka那边生产者生产的比这个值快，并且spark也处理得很快，那就浪费资源了。
好在spark1.5之后的版本，提供了spark.streaming.backpressure.enabled参数。

backpressure

使用backpressure功能需配置spark.streaming.backpressure.enabled=true
那，如何控制程序首次运行时获取的数据量呢？
如果程序使用的是receiver模式，可以使用“spark.streaming.backpressure.initialRate”来指定初始的数据量大小；如果是direct模式，可以使用“spark.streaming.kafka.maxRatePerPartition”指定，一般建议将这个值设为你所估计的最优值的1.5~2倍。

参考链接

TheTrulyAtom

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming的backpressure的使用

之前在使用spark streaming消费kafka数据时，为了防止每次从kafka获取的数据过多，设置了spark.streaming.kafka.maxRatePerPartition的大小，这样每次从kafka获取到的最大数据就可以为“topic个数*kafka每个topic分区个数*maxRatePerPartition”。这样似乎可以防止spark一次性读入的数据太多。然鹅，带来了一些...
复制链接

扫一扫