spark.streaming.kafka.maxRatePerPartition=2000:设置每秒每个分区最大获取日志数,控制处理数据量,保证数据均匀处理。(spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。假设此项设为1,批次间隔为10s,目标topic只有一个partition,则一次拉取的数据量为1*10*1=10。 计算Kafka吞吐量:
spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,一般和spark.streaming.backpressure.enabled=true一起使用。那么应该怎么算这个值呢。
如例要10分钟的吞吐量控制在5000,0000,kafka分区是10个。
spark.streaming.kafka.maxRatePerPartition=8400这个值是怎么算的呢。如下是公式
spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
)