tags:springbatch
1.引言
上一篇《便捷的数据读写-spring batch(5)结合beetlSql进行数据读写》中使用Spring Batch及BeetlSql,对数据库读写组件进行数据库同步,实际上是全量同步。全量同步的问题在于每次需要读取整个表数据,如果表数据量大,则资源耗费大,而且不便于对已有数据的更新。因此,在数据同步过程中,更多的使用增量同步,即通过某些条件,区分新数据进行插入,对有变化的数据进行更新,对不存在的数据进行删除等(当然,一般都不会对数据进行物理删除,只做逻辑删除,因此也就变成了数据更新操作)。
增量更新更多情况需要依据上一次更新后的状态(如时间、自增ID,数据位置等),下一次更新以上一次更新的状态为基础,因此,需要把每一次更新后的状态以变量参数的方式保存下来,下一次更新则以此状态数据为动态参数来使用。Spring Batch支持任务运行时的动态参数,结合此特性,可以实现数据的增量同步。
2.开发环境
JDK: jdk1.8
Spring Boot: 2.1.4.RELEASE
Spring Batch:4.1.2.RELEASE
开发IDE: IDEA
构建工具Maven: 3.3.9
日志组件logback:1.2.3
lombok:1.18.6
3.增量同步简述
增量同步,是相对与全量同步,即每次同步,只需要同步源数据库变化的部分,这样提高了数据同步的效率。是当前数据同步的普遍方式。抽取变化的数据,又名CDC,即Change Data Capture变化数据捕获。在《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案 》一书中,对CDC作了比较详细说明。此处简要做一下说明,当前实现增量同步的方式有4种,分别是基于源数据的CDC,基于触发器的CDC,基于快照的CDC,基于日志的CDC。
3.1 基于源数据的CDC
基于源数据的CDC要求源数据里有相关的属性列,利用这些属性列,可以判断出哪里是增量数据,最常见的属性列有:
时间戳
基于时间来标识数据,至少需要一个时间,最好两个,一个标识创建,一个标识更新时间,所以一般我们设计数据库时都会添加sys_create_time和sys_update_time作为默认字段,并且设计为默认当前时间和更新处理。
自增序列
使用数据库表的自增序列字段(一般是主键),来标识新插入的数据。不过现实中用得比较少。
此方法需要有一个临时表来保存上一次更新时间或,在实践中,一般是在独立的模式下创建此表,保存数据。下一次更新则比较上一次时间或序列。这是用得比较普遍的方式,本文中的增量同步也是使用此方法。
3.2 基于触发器的CDC
在数据库中编写触发器,当前数据库执行INSERT,UPDATE,DELETE等语句时,可以激活数据库中的触发器,然后触发器可以把这些变更的数据保存到中间临时表,然后再从临时表中获取这些数据,同步到目标数据库中。当然,这种方法是入侵性最强的,一般数据库都不允许向数据库里添加触发器(影响性能)。
3.3 基于快照的CDC
此方法就是一次抽取当前全部数据放到缓冲区,作为快照,下一次同步时从源数据读取数据,然后和快照做比较,找出变化的数据。简单来说是就做全表读取与比较,找出变化的数据。做全表扫描,问题就在于性能,所以一般不会使用这种方式。
3.4 基于日志的CDC
最高级和最没有入侵性的方法就