1、Kafka的offset
- Kafka0.8版本以前,offset默认存储在zookeeper中(基于Zookeeper)
- Kafka0.9版本以后,offset默认存储在内部的topic中,基于 __consumer_offsets 的Topic中。
2、kafka消费offset提交配置
1. checkpoint禁用:
flink kafka消费依赖于内部kafka客户端自动定期的offset提交
配置:enable.auto.commit / auto.commit.interval.ms
2. checkpoint启用:
flink kafka consumer在checkpoint完成时自动提交offset在checkpoint state中;
配置:setCommitOffsetsOnCheckpoints(boolean) 来启用关闭;默认情况下,是开启的true
此模式下,配置在properties中自动周期性的offset提交将被忽略;
3、程序出现了异常,恢复subTask,读取偏移量,从StateBackend恢复还是kafka中恢复?
1、StateBackend 偏移量目录,你会发现kafka中特殊的topic也有偏移量,但是它不是用来恢复的,是用来做监控的。
2、如果你不想让kafka中特殊的topic有偏移量,也可以取消。官网中这样记载。
3、只需要添加一下:
// kafka中的偏移量取消掉【不建议false,默认是true,它用来监控这个偏移量】
kafkaSource.setCommitOffsetsOnCheckpoints(false);
4、从kafka生产者中继续写数据的话,并没有从头读取,也不会从kafka中特殊的topic继续读取。
5、如果停掉程序呢?
5.1、如果开启了checkpointing,一定会保存到statebackend中去
5.2、没有指定savepoint的话,首先查看kafka特殊的topic,然后查看恢复文件。