拉链表(hive)

 

目录

1、什么是拉链表

2、拉链表是怎么存储的

3、Hive中拉链表的存储过程


1、什么是拉链表

拉链表是我们存储数据时为了处理某些情况而设计的一种表结构,是一种存储数据的方法。

在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计:

    1.有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。 

            2.表中的部分字段会被update更新操作,如用户联系方式,产品的描述信息,订单的状态等等。 应用时需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态。 

            3.表中的记录变化的比例和频率不是很大,比如,总共有10亿的用户,每天新增和发生变化的有200万左右,变化的比例占的很小。 

这种情况下,我们如果每天保存一份全量数据,但是数据量很大,每天都抽一份全量数据,再有钱的公司可能也支付不起数据库的费用,而且表中记录变化的比例和频率都不是很大,全量抽取数据库中会有大量的重复数据,没有意义;我们如果每天先drop掉前一天的数据,再重新抽取一份新的,这样解决了物理存储费用的问题,但是这样不能查看某一个订单在历史某一个时间点的状态,不能满足业务需求;所以我们需要是当数据发生变化时仅对该数据进行记录并修改的,可以存储历史数据的存储方法。有人就设计出了拉链表。

为了更直观的感受拉链表,请仔细观察下面表的变化,注意start_dt和end_dt是拉链表的精髓

开始的时候

UserID

UserName

Height

start_dt

end_dt

000000001

张三

176

2015-05-14

2999-12-31

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值