基于FlinkCDC的Mysql向 SQLServer实时增量同步方案

最新推荐文章于 2024-07-23 14:21:26 发布

寒暄

最新推荐文章于 2024-07-23 14:21:26 发布

阅读量1.2k

点赞数

分类专栏： ☺技巧文章标签： mysql sqlserver Flink flinkcdc

本文链接：https://blog.csdn.net/qq_41106844/article/details/119934872

版权

本文介绍了使用FlinkCDC从MySQL到SQLServer的实时增量同步方案，详细阐述了CDC实现类、自定义sink类以及SQL拼接类的运用。

摘要由CSDN通过智能技术生成

基于FlinkCDC的MySQL向SQLServer实时增量同步方案

CDC实现类

package com.flinkcdc;

import com.alibaba.fastjson.JSONObject;
import com.alibaba.ververica.cdc.connectors.mysql.MySQLSource;
import com.alibaba.ververica.cdc.debezium.DebeziumDeserializationSchema;
import com.alibaba.ververica.cdc.debezium.DebeziumSourceFunction;
import io.debezium.data.Envelope;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;
import org.apache.kafka.connect.data.Field;
import org.apache.kafka.connect.data.Struct;
import org.apache.kafka.connect.source.SourceRecord;

import java.util.Properties;

public class MysqlCDC {
   

    public static void main(String[] args) throws Exception {
   
        //1.创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);
        //2.Flink-CDC将读取binlog的位置信息以状态的方式保存在CK,如果想要做到断点续传,需要从Checkpoint或者Savepoint启动程序
        //2.1 开启Checkpoint,每隔5秒钟做一次CK
        env.enableCheckpointing(5000L);
        //2.2 指定CK的一致性语义
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
        //2.3 设置任务关闭的时候保留最后一次CK数据
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        //2.4 指定从CK自动重启策略
        env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 2000L));
        //2.5 设置状态后端
        env.setStateBackend(new FsStateBackend("hdfs://sc2:8020/flinkCDC"));
        //2.6 设置访问HDFS的用户名
        System.setProperty("HADOOP_USER_NAME", "root");

        //3.创建Flink-MySQL-CDC的Source
        Properties properties = new Properties();

        properties.setProperty("scan.startup.mode", "initial");
        DebeziumSourceFunction<String> mysqlSource = MySQLSource.<String>builder()
                .hostname("192.168.110.223")
                .port(3306)
                .username("root")
                .password("123456")
                .databaseList("csdata")
                .tableList("csdata.cstable")         //可选配置项,如果不指定该参数,则会读取上一个配置下的所有表的数据
                //注意：指定的时候需要使用"db.table"的方式
                //.debeziumProperties(properties)
                .deserializer(new mySchema())
                .build();

        //4.使用CDC Source从MySQL读取数据
        DataStreamSource<String> mysqlDS = env.addSource(mysqlSource);

        //5.sink
        mysqlDS.addSink(new JdbcConnector.MyJdbcSink());

        //6.执行任务
        env.execute();
    }

    /**
     * 反序列化器
     */
    public static class mySchema implements DebeziumDeserializationSchema<