何为FLINK-CDC?
CDC是Change Data Capture的缩写,中文意思是变更数据获取,flink-cdc的作用是,通过flink捕获数据源的事务变动操作记录,包括数据的增删改操作等,根据这些记录可作用于对目标端进行实时数据同步。
下图是flink-cdc最新支持的数据源类型:
对有记录事务操作的kafka数据源通过flink-cdc实现实时数据同步
kafka的数据源要通过flink-cdc进行实时数据同步,并更新到目标数据库:例如mysql、postgres、oracle等传统关系型数据库,或者是clickhouse、TiDb等关系型数据库,或者是其他,首先要符合以下条件:
- kafka的数据记录了事务操作。
- kakfa的数据描述了主键。
- kafka的数据有严格的更新时间先后顺序,即源端先更新(增、删、改)的数据会先进入kafka。
符合以下几点的kafka数据即可以作为flink-cdc采集的数据源,并实时同步到目标库。