我们在用Flink连接kafka进行实时数据处理的时候,程序中需要配置kafka的一些参数。如下:
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Properties properties = new Properties();
//kafka集群的机器
properties.setProperty("bootstrap.servers", "linux01:9092,linux02:9092,linux03:9092");
properties.setProperty("group.id", "g02");
properties.setProperty("auto.offset.reset", "earliest");
properties.setProperty("enable.auto.commit", "false");
那这个 auto.offset.reset 配置是什么意思呢?
一、 我们先说 enable.auto.commit 这个参数:
- 当为false时,意为不自动提交偏移量
- 如果不设置,默认为true
二、然后是 auto.offset.reset 这个参数:
可以设置为:
- earliest
- latest
- none
earliest 和 latest 分两种情况:
(1)该组该topic中不存在已经提交的offest时(从没有提交保存过偏移量)
- earliest 表示从头开始消费
- latest 表示从最新的数据消费,也就是新产生的数据.
(2)该组该topic存在已经提交的offest时(之前提交保存过偏移量)
- 不管设置为earliest 或者latest 都会从已经提交的offest处开始消费
none:
- topic各分区都存在已提交的offset时,从提交的offest处开始消费
- 只要有一个分区不存在已提交的offset,则抛出异常