(MySQL中的业务数据通过sqoop同步到HDFS上,HDFS再同步到ODS层。)
数据同步 策略的类型包括: 全量同步、增量同步、新增及变化同步、特殊情况
- 全量表: 存储 完整 的数据。
- 增量表:存储 新增加的数据 。
- 新增及变化表: 存储新增加的数据和变化的数据。
- 特殊表: 不变化的数据, 只需要存储一次 。
全量表有一个特殊的场景是一定要用的,就是 业务数据第一次被加载到ODS层的时候要用全量同步。
业务数据装载分为首日数据装载和每日数据装载,首日数据装载就是第一次装载业务数据的时候,因为业务数据一开始就有,所以第一次加载到ODS层要全部加载。每日数据装载就是平时新产生新修改等的数据,所以可以根据场景选择其他的同步策略。
用户行为数据没有首日数据装载这一说,因为用户行为数据没有历史数据,一开始是没有数据的,所以不用考虑首日跟每日这点。
一般情况下,维度表都是用每日全量同步,因为维度表中的数据少,而且会有变化。
特殊策略
某些特殊的表,可不必遵循上述同步策略。例如某些不会发生变化的表(地区表,省份表,民族表)可以只 存一份固定值。
分析表同步策略
在生产环境,个别小公司,为了简单处理,所有表全量导入。
中大型公司,由于数据量比较大,还是严格按照同步策略导入数据。