etl 增量对比解决方案 etl-engine 如何实现增量对比

什么是增量对比

增量是相对于全量来说的,它们都是处于“同步数据”这个场景中。

  • 全量同步实现的逻辑是不管原表与目标表数据是否发生过变量,都要定期将原表数据全部覆盖到目标表,以保证目标表数据的完整性。
  • 增量对比实现的逻辑是将原表与目标表的数据通过算法进行对比,然后只将差异数据(增加、删除、修改)同步到目标表,在最小化操作目标表的同时还保证了目标表数据的完整性。

增量对比的必要性

模拟一个使用场景,业务系统A表中的数据要同步到数据仓库B表中(最简单的样例是A表与B表结构完全一样),

  • 全量同步实现方式:

把A表数据全部同步到B表中,目的是让两表数据始终保持一致,这种方式一般都是采用简单粗暴的方式来实现,实现起来就是先删除B表数据,然后再将A表数据全部插入到B表,
优点是操作简单,缺点就是数据量大时(假设A表有1亿条记录,其中只有一条记录发生变化),也要先删除B表中的1亿条记录,然后再将A表中的1亿条记录插入到B表中 ,很显然全量同步方式已经不适合了。

  • 增量对比实现方式:

1、选择出A表与B表中业务属性相同的字段作为对比的主键;
2、根据主键进行两表的对比,如果主键不同,证明A表中有数据删除或新增;
3、如果主键相同,再对比其它字段,如果其它字段都相同证明数据未发生变化,否则A表中有数据做了修改。
4、将差异数据同步到B表中。
优点是只将差异化数据同步到B表中,缺点是要事先按条件进行筛选对比的记录集(事先做好充分的业务分析),否则要对比的数据量过大会占用大量内存进行运算,并且等待对比结果的时间也很长(对比时间的长短取决于对比数据量的大小)。

etl-engine增量对比节点

etl-engine 提供的增量对比节点实现了上述增量算法,只需要按配置要求进行相关配置,很容易实现增量对比效果并直接将差异数据入库到目标表(或转存差异数据),提高了开发人员及实施人员的工作效率。
在这里插入图片描述

增量对比场景1
在这里插入图片描述

增量对比场景2

在这里插入图片描述

参考资料

  [免费下载](https://github.com/hw2499/etl-engine/releases)
  [etl-engine使用手册](https://github.com/hw2499/etl-engine)
  [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6)
  [嵌入脚本开发](https://github.com/hw2499/etl-engine/wiki/%E5%B5%8C%E5%85%A5%E8%84%9A%E6%9C%AC%E5%BC%80%E5%8F%91)
  [etl-engine配置样例](https://github.com/hw2499/etl-engine/wiki/etl-engine%E4%BD%BF%E7%94%A8%E6%A0%B7%E4%BE%8B)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值