Flink Kafka数据源读取分析

最新推荐文章于 2024-07-21 18:22:05 发布

conch_china

最新推荐文章于 2024-07-21 18:22:05 发布

阅读量1.1k

点赞数

分类专栏：大数据 flink 文章标签： kafka flink

本文链接：https://blog.csdn.net/conch_china/article/details/128112463

版权

本文深入探讨了Flink在Table API中使用Kafka作为数据源时，如何进行分区分配和消费。Flink作业的并行度与Kafka分区之间的关系，以及JobMaster如何协调和调度，确保每个Source Task正确消费Kafka分区。详细分析了从Sql生成KafkaSource，到SourceCoordinator、SourceTask之间的通信，直至TaskExecutor实际消费数据的流程。

摘要由CSDN通过智能技术生成

Flink Table Api中kafka连接器，一个Kafka source表对应一个kafka topic，一个kafka topic一般有多个partition；Flink流处理作业的并行度一般大于1，一个source Task对应一个kafka consumer。Flink需要把 kafka 分区分配给各task。
Flink的设计要点如下：
1）在JobMaster侧，Flink通过kafka API发现所有的分区，然后将分区分配给各source task。
2）JobMaster通过RPC消息给Source Task（在TaskExecutor上运行）发送对应的分区信息。
3）Source Task收到分区消息后，创建kafka consumer，消费对应分区的消息。

相关的源码如下：
1）根据Sql生成PlannerQueryOperation的时候，生成 KafkaSource对象
2）构建 JobGraph 的时候就生成一个 SourceCoordinatorProvider 对象
3）构建 ExecutionGraph 的时候生成 SourceCoordinator 对象。
3）JobMaster开始调度的时候， SourceCoordinator通过KafkaSource 创建 KafkaSourceEnumerator，再通过 KafkaSourceEnumerator 发现kafka的分区，并分配分区给各Source task，这个处理逻辑参见 KafkaSourceEnumerator#addPartitionSplitChangeToPendingAssignments 方法。

private void addPartiti