Spark--06 SparkStreaming kafka消息堆积

最新推荐文章于 2022-07-14 14:57:16 发布

envinfo2012

最新推荐文章于 2022-07-14 14:57:16 发布

阅读量1.1k

点赞数 1

分类专栏： spark编程

本文链接：https://blog.csdn.net/envinfo2012/article/details/101265572

版权

10 篇文章 1 订阅

订阅专栏

问题：

当应用由于各种其它因素需要暂停消费时，下一次再次启动后就会有大量积压消息需要进行处理，此时为了保证应用能够正常处理积压数据，需要进行相关调优。

另外对于某个时刻，某个topic写入量突增时，会导致整个kafka集群进行topic分区的leader切换，而此时Streaming程序也会受到影响。

所以针对以上问题我们进行了如下调优：

spark.streaming.concurrentJobs=10：提高Job并发数，读过源码的话会发现，这个参数其实是指定了一个线程池的核心线程数而已，没有指定时，默认为1。
spark.streaming.kafka.maxRatePerPartition=2000：设置每秒每个分区最大获取日志数，控制处理数据量，保证数据均匀处理。（spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。假设此项设为1，批次间隔为10s，目标topic只有一个partition，则一次拉取的数据量为1*10*1=10。计算Kafka吞吐量：

spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的，一般和spark.streaming.backpressure.enabled=true一起使用。那么应该怎么算这个值呢。

如例要10分钟的吞吐量控制在5000,0000，kafka分区是10个。

spark.streaming.kafka.maxRatePerPartition=8400这个值是怎么算的呢。如下是公式

spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
）
spark.streaming.kafka.maxRetries=50：获取topic分区leaders及其最新offsets时，调大重试次数。
在应用级别配置重试
spark.yarn.maxAppAttempts=5
spark.yarn.am.attemptFailuresValidityInterval=1h

此处需要【注意】：
spark.yarn.maxAppAttempts值不能超过hadoop集群中yarn.resourcemanager.am.max-attempts的值，原因可参照下面的源码或者官网配置。

关注

专栏目录