SparkStreaming消费Kafka数据限速问题

最新推荐文章于 2024-05-23 22:08:13 发布

anyu1516

最新推荐文章于 2024-05-23 22:08:13 发布

阅读量1k

点赞数

文章标签：大数据开发工具

原文链接：http://www.cnblogs.com/mr1202/p/10749245.html

版权

SparkStreaming消费Kafka数据的时候，当有大量初始化数据时会拖累整个streaming程序的运行，问有什么办法？

总体来说这个问题大概有两种解决思路：

1.在Spark端设置限速；2.在Kafka端设置限速。

Spark端限速的方法知乎上已有很多帖子说过了，主要的思路是设置不同的参数，比如在Direct模式下设spark.streaming.kafka.maxRatePerPartition，receiver模式下设置spark.streaming.receiver.maxRate。它们都是控制每秒处理的消息数。应该说目前使用Direct模式的比较多，因此你需要适当地调整spark.streaming.kafka.maxRatePerPartition值。

在Kafka端设置限速有两种办法：

1. 设置broker端参数quota.consumer.default。比如quota.consumer.default=15728640表示将连入该broker的所有consumer的TPS降到15MB/s以下。此参数的好处在于全局生效简单易用，对broker上所有consumer都是”一视同仁“；缺陷也在于此，无法单独为个别consumer限速，故该方法在0.11.0.0版本之后已经不推荐使用。

2. 通过kafka-configs命令。比如下面命令是为client.id为clientA的consumer设置限速：

$ bin/kafka-configs.sh --zookeeper localhost:2181

--alter

--add-config 'consumer_byte_rate=15728640'

--entity-type clients

--entity-name clientA

此命令只为client.id=clientA的consumer设置了限速，故在Spark端你还需要显式设置client.id，

比如：

Map<String, Object> kafkaParams = new HashMap<>();

...

kafkaParams.put("client.id", "clientA");

...

JavaInputDStream<ConsumerRecord<String, String>>

stream = KafkaUtils.createDirectStream(...);

值得注意的是，在Kafka端设置的限速单位都是每秒字节数。如果你想按照每秒多少条消息进行限速还需要结合消息的平均大小来计算。

转载于:https://www.cnblogs.com/mr1202/p/10749245.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming消费Kafka数据限速问题

SparkStreaming消费Kafka数据的时候，当有大量初始化数据时会拖累整个streaming程序的运行，问有什么办法？总体来说这个问题大概有两种解决思路：1.在Spark端设置限速；2.在Kafka端设置限速。Spark端限速的方法知乎上已有很多帖子说过了，主要的思路是设置不同的参数，比如在Direct模式下设spark.streaming.kafka.maxRat...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。