日常使用Kettle的spoon来ETL数据,经过一段时间的使用,下面总结一下。
目标库是我的数据库,源库是外部提供的数据库。
1.在目标库建立时间中间表,包括三个字段:id, current_load_time, last_load_time,中间表用于衡量数据更新的标准,需要提前写入一条记录;由于源表的时间字段有两种类型:date和timestamp,时间中间表的current_load_time, last_load_time要按照这个字段的类型来设定。
2.在源库获取建表语句,在目标库建立同样的表,包括注释等等;
3.以上就在目标表建立两个表:时间中间表和需要同步的表。
4.下面在spoon建立三个转换,一个作业;前提准备工作是在spoon中建立了DB连接,并共享出来,避免以后每次都要建立连接。建议使用JNDI连接。
5.转换一(初始化时间):获取系统时间(systemdatetime)(可变),写入时间中间表的current_load_time。
6.转换二(同步数据):输入时间中间表,用current_load_time和last_load_time作为条件,select源表的数据,插入/更新到目标表。
7.转换三(更新时间中间表):把current_load_time的值写入last_load_time,为下一次的更新做准备。
8.建立一个作业,包括一个start和上面的三个转换。先直接运行一次作业,看看整个流程是否正常。设置start让它按时间重复运转。
以上是最基本和最简单的同步模型。