本文基于Flink 1.12版本,目前这个版本已经不需要再指定具体的kafka版本了。
本文从Sql角度分析一下,创建一个kafka的table之后,flink是如何从kafka中读写数据的。
入口
依然是通过SPI机制找到kafka的factory(KafkaDynamicTableFactory),Flink中大量使用了SPI机制,有时间再整理一篇SPI在Flink中的应用。话不多说,进入正题。
Source
通过createDynamicTableSource方法创建 kafka source,这里主要做几件事:
- 从context获取table ddl中相关的信息、比如schema、with属性,生成TableFactoryHelper辅助工具类。
- 根据with中的key/value format配置discover key/value的format。
- 各种参数校验。
- 构造KafkaDynamicSource对象。
在KafkaDynamicSource中通过key/value 的format创建对应的deserialization schema,将schema中的metadata字段和普通字段分开,创建FlinkKafkaConsumer对象封装在SourceFunctionProvider当中。
@Override
public ScanRuntimeProvider getScanRuntimeProvider(ScanContext context) {
final DeserializationSchema<RowData> keyDeserialization =
createDeserialization(context, keyDecodingFormat, keyProjection, keyPrefix);
final DeserializationSchema<RowData> valueDeserialization =
createDeserialization(context, valueDecodingFormat, valueProjection, null);
final TypeInformation<RowData> producedTypeInfo =
context.createTypeInformation(producedDataType);
final FlinkKafkaConsumer<RowData> kafkaConsumer =
createKafkaConsumer(keyDeserialization,</