hive之拉链表实现过程及剖析

40 篇文章 20 订阅
17 篇文章 1 订阅

1、创建拉链表
create external if exists dwd_user_info(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息拉链表'

2、初始化拉链表(导入2020-11-08数据)
insert overwrite table dwd_user_info
select
    id,
    name,
    '2020-11-08',
    '9999-99-99'
from ods_user_info 
where dt="2020-11-08"


3、创建用户信息临时表
create external if exists dwd_user_info_tmp(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息临时表'

4、导入2020-11-09数据
insert overwrite table dwd_user_info_tmp
select * from
(
    (select
        id,
        name,
        '2020-11-09' as start_date,
        '9999-99-99 as end_date'
    from ods_user_info 
    where dt="2020-11-09" #取出ods层用户信息表11月9日数据,并制作初始拉链表
    ) #这是新增数据及变化所有数据
    unoin all
    (select
        t1.id,
        t1.name,
        t1.start_date,
        if(t2.id is not null and t1.end_date='9999-99-99',date_add(t2.dt,-1),t1.end_date) as end_date
    from 
        dwd_user_info t1 #取出dwd层用户信息拉链表数据
    left join
        (select * from ods_user_info where dt="2020-11-09") t2 #取出ods层用户信息表11月9日增量及变化数据
    on t1.id = t2.id
    )#通过left join 找出不是新增的数据,而是修改的数据,并将修改的时间-1,原拉链表存在的数据不变,只是修改结束时间
)
t2.id is not null and t1.end_date='9999-99-99' 判断t2不是新增数据
unoin all 用来去除原拉链表中没有变化的数据和新增数据重复的部分
ps:
这部分重复的数据可能是业务数据原来是1,后来改为2,再改为1,信息不变,但修改时间变了

5、临时表数据回写覆盖拉链表
insert overwrite table dwd_user_info
select * from dwd_user_info_tmp;

  • 0
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗少说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值