sparkConf.set(“spark.streaming.kafka.maxRatePerPartition”, “50000”)
这个参数的意思是每个分区每秒最大拉取50000条数据,适用于数据积压时蜂拥而来的数据造成的oom
还有auto.offset.eariest这个值现在有两个分别是latest和earliest。
首先它俩有一个点的区分。当偏移量无效时,若使用latest时从最新的偏移量消费,用earliest时从该topic记录的最小的偏移量消费。我觉得这样的话 又有了新的问题,首先是在根据无效偏移量读取时是否会报错,这个错怎么解决,其次是这样会丢失数据应该,因为程序记录的偏移量应该是消费时的偏移量 现在直接跳到最小或最新的偏移量时,之前的数据全部丢失。
控制spark直连kafka秒级传输量
最新推荐文章于 2022-07-11 16:46:46 发布