SparkStreaming消费kafka数据堆积问题(即生产者生产数据速率>>消费者消费数据速率)

 

Spark直连kafka解决方案:

注意:spark直连kafka spark的分区数和kafka的分区数是一致的

 

1.增加kafka的分区数,相当于增加了spark的分区数,分区数增加处理数据能力上升。但是分区数量不要少于服务器(exector服务器)的cpu核数,spark官方提示分区数要是cpu总核数的2~3倍

 

Kafka增加分区的命令:

./kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 4 --topic test1

 

2.增加每个分区的内存数量,在执行spark程序的命令中指定 --executor (x)G  --driver (x)G。

增加了内存数量降低程序的运行时间。

 

3.增加服务器的数量。服务器数量增加spark的节点相对应的增加,节点增加会将原来数据分发到多的节点上进行数据的处理,增加速率。

 

4.最优处理方式就是,增加服务器数量的同时也增加kafka分区的数量(相当于增加spark的分区数量),两种方式同时增加对消费数据速率有大幅度提升。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值