问题:在OLTP数据库向OLAP数据库(仓库)进行数据迁移时,如何保证数据实时同步不丢不重复?
解决方案:以实时同步为主,离线同步为辅,在实时同步失败时,用离线同步的方式补齐
实时同步过程:OLTP的binlog日志通过相关组件进行ETL,将数据传递到OLAP中
实时同步质量校验:createTime、updateTime、deleteTime对应创建、更新和删除操作,通过每个操作的数据量进行校验
离线同步过程:OLTP的数据通过相关组件进行ETL,周期性地将数据传递到OLAP中
具体过程:
1 实时同步,7*24地运行
2 每过一个周期T检测固定窗口中三个操作的数据量,窗口大于等于T
3 如果有不一致则进行补数
4 按照创建、更新、删除的顺序进行补数
5 更新操作在补数时,可能会出现被修改的情况,使用快照版本的方式,进行解决
a第一次快照V1包含N1条数据进行补数
b补数完了,再次快照V2包含N2条数据,N2<N1则说明有数据被修改,否则是正常的
c对N1-N2的数据进行补数
d补数完了,再次快照V3包含N3条数据,N3<N2则说明有数据被修改,否则是正常的
e对N2-N3的数据进行补数
重复b、c、d、e的过程,直至正常,也可以这是一个阈值,到了多少个快照后,不在重复以上操作,然后记录下需要补数的数据
注意:createTime、updateTime、deleteTime必须包含这三个时间,时间精度至少到秒级