hive 全量表、增量表、快照表、切片表和拉链表

文章介绍了数据表的不同类型,如全量表、增量表和快照表等,并详细阐述了拉链表的概念,它用于记录数据的生命周期。拉链表适合于数据会有变化但大部分保持不变的情况。构建拉链表的过程包括初始化、获取变动数据、合并更新以及覆盖旧表。文章提供了一个拉链表初始化及每日更新的例子。
摘要由CSDN通过智能技术生成

全量表:记录每天的所有的最新状态的数据,
增量表:记录每天的新增数据,增量数据是上次导出之后的新数据。
快照表:按日分区,记录截止数据日期的全量数据
切片表:切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据                                                                     拉链表:记录每条信息的生命周期,当一条记录的生命周期结束,就会重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,则在生效结束日期中填入一个极大值(如9999-99-99) ,一般在数仓中通过增加start_date,end_date两列来表示。

拉链表适合于数据会发生变化,但是大部分是不变的。

使用拉链表的方式:通过生效开始日期<= 某个日期 生效结束日期>=某个日期,能够得到某个时间点的数据全量切片。

拉链表的形成过程,比如下图

 

如何制作拉链表?
1)新建和初始化拉链表dwd_order_info_his(首次独立执行)</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值