kettle spoon判断增量更新_使用Kettle实现数据实时增量同步--时间戳增量回滚同步...

使用Kettle实现数据实时增量同步

0. 前言

本文介绍了使用Kettle对一张业务表数据(500万条数据以上)进行实时(10秒)同步,采用了时间戳增量回滚同步的方法。关于ETL和Kettle的入门知识大家可以阅读相关的blog和文档学习。

1. 时间戳增量回滚同步

假定在源数据表中有一个字段会记录数据的新增或修改时间,可以通过它对数据在时间维度上进行排序。通过中间表记录每次更新的时间戳,在下一个同步周期时,通过这个时间戳同步该时间戳以后的增量数据。这是时间戳增量同步。

但是时间戳增量同步不能对源数据库中历史数据的删除操作进行同步,我们可以通过在每次同步时,把时间戳往前回滚一段时间,从而同步一定时间段内的删除操作。这就是时间戳增量回滚同步,这个名字是我自己给取得,意会即可,就是在时间戳增量同步的同时回滚一定的时间段。

说明:

源数据表 需要被同步的数据表

目标数据表 同步至的数据表

中间表 存储时间戳的表

2. 前期准备

在两个数据库中分别创建数据表,并通过脚本在源数据表中插入500万条数据,完成后再以每秒一条的速度插入新数据,模拟生产环境。

源数据表结构如下:

CREATE TABLE `im_message` (

`id` int(11) NOT NULL AUTO_INCREMENT,

`sender` varchar(45) COLLATE utf8_bin NOT NULL COMMENT '消息发送者:SYSTEM',

`send_time` datetime(6) NOT NULL,

`receiver` varchar(45) COLLATE utf8_bin NOT NULL COMMENT '消息接受者',

`content` varchar(255) COLLATE utf8_bin NOT NULL COMMENT '消息内容',

`is_read` tinyint(4) NOT NULL COMMENT '消息是否被读取:0-未读;非0-已读',

`read_time` datetime DEFAULT NULL,

PRIMARY KEY (`id`),

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值