数据仓库拉链表的理解

拉链表是数据仓库中的一个概念
一般来说数据仓库可能每日同步一些维表到数据仓库中,如果每日都是全量同步,对数据存储必定是巨大的浪费。维表的变化大都是比较缓慢的,拉链表为每一条记录提出了有效时间的概念,即一条记录的有效期“开始时间”和“结束时间”,只有变化的数据才会产生新的记录。下面是拉链表的一些关键节点

1.记录开始时间是记录的创建/修改时间。
2.结束时间为,如果记录没有变化过通常会用一个很大的时间作为结束时间,比如3099-12-31;如果记录修改过,就修改老记录并且加一条新记录,老记录把修改时间作为有效期结束时间,再添加一条新记录,结束时间为未来时间。
3.取数据只要圈定范围就可以取到对应时间内有效的数据。

hive拉链表的实现
1、创建拉链表

create external if exists dwd_user_info(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息拉链表'

2、初始化拉链表(导入2020-11-08数据)

insert overwrite table dwd_user_info
select
    id,
    name,
    '2020-11-08',
    '9999-99-99'
from ods_user_info 
where dt="2020-11-08"

3、创建用户信息临时表

create external if exists dwd_user_info_tmp(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `start_date` string COMMENT '开始日期',
    `end_date` string COMMENT '结束日期'
)COMMENT '用户信息临时表'

4、导入2020-11-09数据

insert overwrite table dwd_user_info_tmp
select * from
(
    (select
        id,
        name,
        '2020-11-09' as start_date,
        '9999-99-99 as end_date'
    from ods_user_info 
    where dt="2020-11-09" #取出ods层用户信息表11月9日数据,并制作初始拉链表
    ) #这是新增数据及变化所有数据
    unoin all
    (select
        t1.id,
        t1.name,
        t1.start_date,
        if(t2.id is not null and t1.end_date='9999-99-99',date_add(t2.dt,-1),t1.end_date) as end_date
    from 
        dwd_user_info t1 #取出dwd层用户信息拉链表数据
    left join
        (select * from ods_user_info where dt="2020-11-09") t2 #取出ods层用户信息表11月9日增量及变化数据
    on t1.id = t2.id
    )#通过left join 找出不是新增的数据,而是修改的数据,并将修改的时间-1,原拉链表存在的数据不变,只是修改结束时间
)
t2.id is not null and t1.end_date='9999-99-99' 判断t2不是新增数据
unoin all 用来去除原拉链表中没有变化的数据和新增数据重复的部分
ps:
这部分重复的数据可能是业务数据原来是1,后来改为2,再改为1,信息不变,但修改时间变了

5、临时表数据回写覆盖拉链表

insert overwrite table dwd_user_info
select * from dwd_user_info_tmp;

参考文献:https://blog.51cto.com/u_15323256/3280009

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值