SparkStreaming消费kafka数据堆积问题(即生产者生产数据速率>>消费者消费数据速率)

最新推荐文章于 2022-11-18 15:39:02 发布

Amos_Mu

最新推荐文章于 2022-11-18 15:39:02 发布

阅读量1.9k

点赞数 1

分类专栏： spark调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mys_35088/article/details/89636783

版权

spark调优专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Spark直连kafka解决方案：

注意：spark直连kafka spark的分区数和kafka的分区数是一致的

1.增加kafka的分区数，相当于增加了spark的分区数，分区数增加处理数据能力上升。但是分区数量不要少于服务器(exector服务器)的cpu核数，spark官方提示分区数要是cpu总核数的2~3倍

Kafka增加分区的命令:

./kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 4 --topic test1

2.增加每个分区的内存数量，在执行spark程序的命令中指定 --executor (x)G --driver (x)G。

增加了内存数量降低程序的运行时间。

3.增加服务器的数量。服务器数量增加spark的节点相对应的增加，节点增加会将原来数据分发到多的节点上进行数据的处理，增加速率。

4.最优处理方式就是，增加服务器数量的同时也增加kafka分区的数量（相当于增加spark的分区数量），两种方式同时增加对消费数据速率有大幅度提升。

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
SparkStreaming消费kafka数据堆积问题(即生产者生产数据速率>>消费者消费数据速率)

Spark直连kafka解决方案：注意：spark直连kafka spark的分区数和kafka的分区数是一致的1.增加kafka的分区数，相当于增加了spark的分区数，分区数增加处理数据能力上升。但是分区数量不要少于服务器(exector服务器)的cpu核数，spark官方提示分区数要是cpu总核数的2~3倍Kafka增加分区的命令:./kafka-topic...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。