控制spark直连kafka秒级传输量

最新推荐文章于 2022-07-11 16:46:46 发布

向往太空的鱼

最新推荐文章于 2022-07-11 16:46:46 发布

阅读量287

点赞数

分类专栏： spark kafka

本文链接：https://blog.csdn.net/shuaidong_521/article/details/117548906

版权

spark 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

kafka

2 篇文章 0 订阅

订阅专栏

sparkConf.set(“spark.streaming.kafka.maxRatePerPartition”, “50000”)
这个参数的意思是每个分区每秒最大拉取50000条数据,适用于数据积压时蜂拥而来的数据造成的oom
还有auto.offset.eariest这个值现在有两个分别是latest和earliest。
首先它俩有一个点的区分。当偏移量无效时,若使用latest时从最新的偏移量消费,用earliest时从该topic记录的最小的偏移量消费。我觉得这样的话又有了新的问题,首先是在根据无效偏移量读取时是否会报错，这个错怎么解决，其次是这样会丢失数据应该，因为程序记录的偏移量应该是消费时的偏移量现在直接跳到最小或最新的偏移量时,之前的数据全部丢失。