Hive 拉链表 - 数据同步问题

Hive 拉链表 - 数据同步问题

  • 拉链表专门用于解决数据仓库中数据发送变化如何实现数据更新的问题。
  • 拉链表的设计是将更新的数据进行状态记录,没有发送更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态。
  • 通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认使用9999-12-31等最大值来表示更新状态。
  • 实现过程:
    1. Step1:增量采集变化数据,放入增量表中
    2. Step2:将Hive中的拉链表与临时表的数据进行合并,合并结果写入临时表
    3. Step3:将临时表的数据覆盖写拉链表

案例

  • 合并拉链表与增量表
INSERT OVERWRITE TABLE tmp_zipper
SELECT userid,starttime,endtime
FROM ods_zipper_update
UNION ALL
-- 返回原来拉链表的所有数据,并将需要更改的endtime更新
SELECT 
	a.userid,
	a.starttime,
	-- 如果这条数据没有更新或者这条数据不是要更改的数据,就保留原来的值,否则就更新为新数据的开始时间-1
	IF(b.userid IS NULL OR a.endtime < '9999-12-31',a.endtime,DATE_SUB(b.starttime,1)) AS ENDTIME
FROM dw_zipper a LEFT JOIN obs_zipper_update b ON a.userid = b.userid;
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值