Hive 拉链表 - 数据同步问题
- 拉链表专门用于解决数据仓库中数据发送变化如何实现数据更新的问题。
- 拉链表的设计是将更新的数据进行状态记录,没有发送更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态。
- 通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认使用9999-12-31等最大值来表示更新状态。
- 实现过程:
- Step1:增量采集变化数据,放入增量表中
- Step2:将Hive中的拉链表与临时表的数据进行合并,合并结果写入临时表
- Step3:将临时表的数据覆盖写拉链表
案例
INSERT OVERWRITE TABLE tmp_zipper
SELECT userid,starttime,endtime
FROM ods_zipper_update
UNION ALL
SELECT
a.userid,
a.starttime,
IF(b.userid IS NULL OR a.endtime < '9999-12-31',a.endtime,DATE_SUB(b.starttime,1)) AS ENDTIME
FROM dw_zipper a LEFT JOIN obs_zipper_update b ON a.userid = b.userid;