CDCSOURCE 整库同步

CDCSOURCE 是 Dinky 封装的新功能,Apache Flink 源码不包含,非 Application 模式提交需要在远程 Flink 集群所使用的依赖里添加一下依赖:

# 将下面 Dinky根目录下 整库同步依赖包放置 $FLINK_HOME/lib下
lib/dlink-client-base-${version}.jar
lib/dlink-common-${version}.jar
plugins/flink-${flink-version}/dlink-client-${version}.jar

dlink-client-1.14-0.7.3.jar
dlink-client-base-0.7.3.jar
dlink-common-0.7.3.jar

Application 作业提交

    目前已经支持 application ,需提前准备好相关 jar 包,或者和 add jar 语法并用。以 mysqlcdc-2.3.0 和 flink-1.14 为例,需要以下 jar:

flink-shaded-guava-18.0-13.0.jar
HikariCP-4.0.3.jar
druid-1.2.8.jar
dlink-metadata-mysql-0.7.2.jar
dlink-metadata-base-0.7.2.jar
jackson-datatype-jsr310-2.13.4.jar
flink-sql-connector-mysql-cdc-2.3.0.jar
dlink-client-1.14-0.7.2.jar

sql server 需要 flink-sql-connector-sqlserver-cdc-2.3.0.jar

大部分包都可以找到

 上传到flink lib目录下

一个 FlinkSQL 任务只能写一个 CDCSOURCE,CDCSOURCE 前可写 set、add jar 和 ddl 语句。

配置项中的英文逗号前不能加空格,需要紧随右单引号。

备注:需要在Doris里创建要导入的表

先测试MySQL到Doris

EXECUTE CDCSOURCE demo_doris WITH (

  'connector' = 'mysql-cdc',

  'hostname' = '192.168.1.244',

  'port' = '3306',

  'username' = 'root',

  'password' = '123456',

  'checkpoint' = '10000',

  'scan.startup.mode' = 'initial',

  'parallelism' = '1',

  'table-name' = 'flink_test\.student,flink_test\.score',

  'sink.connector' = 'doris',

  'sink.fenodes' = '192.168.1.246:8030',

  'sink.username' = 'root',

  'sink.password' = '',

  'sink.doris.batch.size' = '1000',

  'sink.sink.max-retries' = '1',

  'sink.sink.batch.interval' = '60000',

  'sink.sink.db' = 'flink_test',

  'sink.sink.properties.format' ='json',

  'sink.sink.properties.read_json_by_line' ='true',

  'sink.table.identifier' = '${schemaName}.${tableName}',

  'sink.sink.label-prefix' = '${schemaName}_${tableName}_5'

);

自动同步列新增和删除列,库表名需要与源库相同。

EXECUTE CDCSOURCE demo_doris_schema_evolution  WITH (

  'connector' = 'mysql-cdc',

  'hostname' = '192.168.1.244',

  'port' = '3306',

  'username' = 'root',

  'password' = '123456',

  'checkpoint' = '10000',

  'scan.startup.mode' = 'initial',

  'parallelism' = '1',

  'table-name' = 'flink_test\.student,flink_test\.score',

  'sink.connector' = 'datastream-doris-schema-evolution',

  'sink.fenodes' = '192.168.1.246:8030',

  'sink.username' = 'root',

  'sink.password' = '',

  'sink.doris.batch.size' = '1000',

  'sink.sink.max-retries' = '1',

  'sink.sink.batch.interval' = '60000',

  'sink.sink.db' = 'flink_test',

  'sink.sink.properties.format' ='json',

  'sink.sink.properties.read_json_by_line' ='true',

  'sink.table.identifier' = '${schemaName}.${tableName}',

  'sink.sink.label-prefix' = '${schemaName}_${tableName}_6'

);

ALTER TABLE student ADD COLUMN gender VARCHAR(10) DEFAULT '0';

在mysql里修改表结构发现doris里没有变化,已确认mysql 已开启binlog能力,主要看doris这边建表的问题,具体如下:

Light Schema Change 是 Doris 最新的一种在线进行加减列或修改列的实现方案,相对于其之前支持的 3 种 Schema Change 方式,Light Schema Change 具备解决 Schema 不一致问题、全局 Schema Cache、支持物化视图、解决数据重写问题的优势,由于其只修改了 FE 的元数据,通过对 BE 读写流程进行修改来支持获取正确的 Schema 信息,性能便达到毫秒级别,这也为在实时整库同步时同步变更 Schema 提供了基础。

重新构建表 

注意以下问题:

测试期间遇到以下2个问题如下,暂时无解,具体如下:

1、Mysql to Doris  数据可以正常同步,但是 表结构发生变化后无法正常同步,会报 = 无法识别的问题,说是sql格式的问题,但页面检测没有问题,暂时无解

2、测试SQLserver 到 Doris的功能,暂时无法使用,会报SQL server没有开启CDC功能,但实际上已开启

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
整库同步是指将数据库中的所有表数据都同步到目标端的操作。在使用Flink CDC进行整库同步时,可以通过配置相关参数实现。 根据引用,选择了mysql-cdc作为Source端来实现整库同步到各Sink端。需要在引用中的代码中设置`table-name`参数为要同步的所有表的名称,以逗号分隔。例如,如果要同步数据库中的bigdata库中的products和orders表,可以将`table-name`设置为`bigdata\.products,bigdata\.orders`。 此外,还需要在sink库中创建相应的表,以便将数据写入目标端。这一步骤在引用中提到,要在sink库中先创建好相应的表。 最后,执行CDC作业即可开始整库同步的过程。在引用中的代码中,通过执行`EXECUTE CDCSOURCE`命令来启动CDC作业。该命令将使用mysql-cdc作为连接器连接到源端数据库,并将数据写入到指定的Kafka主题中。 总结起来,使用Flink CDC进行整库同步的步骤包括: 1. 设置`table-name`参数为要同步的所有表的名称。 2. 在sink库中创建相应的表。 3. 执行CDC作业,将数据从源端同步到目标端。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Dinky实践系列之FlinkCDC整库实时入仓入湖](https://blog.csdn.net/mars275173972/article/details/128551989)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [Flink CDC整库同步(多表异构同步)](https://blog.csdn.net/qq_36062467/article/details/128117647)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值