FlinkCDC

水花反复横跳

已于 2022-08-11 09:58:08 修改

阅读量1.6k

点赞数

分类专栏：实时大数据 flink 文章标签： java mysql 数据库

于 2022-07-16 22:19:59 首次发布

本文链接：https://blog.csdn.net/qq_43585580/article/details/125786735

版权

本文介绍了 CDC 的概念，强调了基于 Binlog 的 CDC 在数据完整性和减轻数据库压力方面的优势。重点讲述了 Flink CDC，它是 Flink 社区开发的用于从 MySQL 等数据库读取全量和增量数据的组件。文章还通过 DataStream 和 FlinkSQL 两种方式提供了详细的实操案例，包括依赖导入、代码编写、测试以及如何使用 Savepoint 进行程序管理。

摘要由CSDN通过智能技术生成

第 1 章 CDC 简介

1.1 什么是 CDC

CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

1.2 CDC 的种类

在这里插入图片描述
基于查询的CDC只关心数据的结果，中间过程无所谓，所以会丢失一部分数据
基于Binlog的CDC执行模式是流，数据不会丢失，关注数据过程

基于Binlog的CDC不会增加数据库压力：Binlog通过有权限验证，读取的是磁盘文件，不直接与mysql文件联系，相当于实时架构和离线架构的区别，进行了解耦不直接访问，减少数据库的压力

基于Binlog的CDC不好处理每日全量问题（where 1=1）：因为底层是流，如果是用于每日增量、新增及变化和特殊场景，完全可以由基于Binlog的CDC来代替基于查询的CDC

1.3 Flink-CDC

Flink 社区（阿里的云邪个人兴趣爱好）开发了 flink-cdc-connectors 组件，这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源，开源地址：
https://github.com/ververica/flink-cdc-connectors

在这里插入图片描述

第 2 章 FlinkCDC 案例实操

2.1 DataStream 方式的应用

2.1.1 导入依赖

<dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.12.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.12.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.12</artifactId>
            <version>1.12.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.49</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba.ververica</groupId>
            <artifactId>flink-connector-mysql-cdc</artifactId>
            <version>1.2.0</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.75</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.0.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef