一 全量表
全量同步策略:导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。
适用于表的数据量不大,并且每天都会有新数据插入,也会有旧数据的修改的场景。
二 增量表
增量同步策略:每日增量,就是每天存储一份增量数据,作为一个分区。
适用于标的数据量大,并且每天只会有数据插入的场景。
三 新增及变化表
新增及变化策略:每日新增及变化,就是存储创建时间和操作时间都是今天的数据。
使用场景为,表的数据量大,既会有新增,又会有变化。
四 特殊表
特殊策略:某些特殊的维度表,可以不必遵守上述同步策略。
1.客观的世界维度
没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只存一分固定值。
2.日期维度
日期维度可以一次性导入一年或若干年的数据。
3.地区维度
省份表,地区表
具体什么时候是用什么策略自己对应
重点关注:
要导的表内的时间字段,如果说没有时间,则考虑全量或者是特殊策略。如果有时间,create_time(这个数据的记录时间),如果只有这个时间,是一个增量,如果除了这个时间,还有其他时间,action_time/update_time······(修改时间),可以采用新增与变化的策略