需求背景:
当下行业,做程序不在是一味的写增删改查了。数据汇聚、数据清洗、数据转换已成为普遍现象,本人所在的项目就是这样的一个情况。由于客户建设的系统数量多,业务分支复杂。虽同属一个主业务,但每次统筹决策查询数据时就犯难了。由于数据孤岛,关联查询成为最难解决的问题。为了解决这个问题,我需要做的就是将几十个系统数据全部汇聚在一起,方便后续的数据分析使用。
说到数据汇聚,我们通常采用的办法就是通过ETL工具进行抽取,也有通过Oracle触发器利用dblink方法同步的,也有采用ogg(商业使用收费)的,也有利用双机热备的,总之不管哪种方法适合自己的才是最好的!我这里用的是开源免费的ETL工具 —— kettle,下面简单将自己工作中对使用kettle增量抽取的理解和流程写出来,希望能帮助到入门的猿友,也欢迎各路大神和老师们的指教!废话不多说,先上作业图:
此作业运行环境需保证业务数据不能有物理删除情况,被删除的数据无法进行同步。且源数据表必须包含“更新时间”字段,无论新增数据还是修改数据,都要同步修改“更新时间”字段,以便我们接下来做基于“更新时间”的增量同步操作。
获取抽取状态:
这个组件主要用来做区间段执行判断的,因为kettle里只有定点执行和间隔时间执行。