实时同步,增量ETL方案分享(源表含时间戳,做逻辑删除)

本文介绍了一个使用Kettle进行实时数据同步的方案,涉及源表逻辑删除、ETL日志表、Stage表和目的表的操作。通过对比etl_log表的最大更新时间和源表数据,抽取增量数据到Stage表,然后使用Kettle的"更新/插入"组件同步到目的表。文章还讨论了可能的优化、调度方法和监控挑战。
摘要由CSDN通过智能技术生成
数据源、中间库、目的库均为MySql,ETL工具为kettle(General Availability Release-Version 6.0.1.0-386)

1.源表有一个updated_time时间戳 字段,java代码中每更新一条数据,就会用当前时间更新该时间戳。源表只做逻辑删除,即数据的status字段值置为0。
2.我的方案如下:
2.1暂定源表到目的表不做任何清洗(如字段脱敏打星处理,字典映射M替换成男等)。
2.2新建一张etl_log表,一张stage表,一张目的表dest。dest、stage表与源表表结构一致。
etl_log建表语句:
CREATE TABLE `etl_log` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `procedure_name` varchar(32) DEFAULT NULL COMMENT '调用过程名称 (扩展字段,用于存储过程走ETL的方案)',
  `updated_count` int(11) DEFAULT NULL COMMENT '更新数据条数',
  `begin_time` datetime DEFAULT NULL COMMENT '开始加载时间',
  `end_time` datetime DEFAULT NULL COMMENT '结束加载时间',
  `cost_dur` varchar(32) DEFAULT NULL COMMENT '加载时间(秒)',
  `updated_time` datetime DEFAULT NULL COMMENT '本次同步中源头表最大的更新时间',
  `table_name` varchar(32) DEFAULT NULL COMMENT '同步的主要表名(可为空,或者多个以,分隔)',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='etl日志表';
2.3
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值