目录
1、什么是拉链表
拉链表是我们存储数据时为了处理某些情况而设计的一种表结构,是一种存储数据的方法。
在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计:
1.有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。
2.表中的部分字段会被update更新操作,如用户联系方式,产品的描述信息,订单的状态等等。 应用时需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态。
3.表中的记录变化的比例和频率不是很大,比如,总共有10亿的用户,每天新增和发生变化的有200万左右,变化的比例占的很小。
这种情况下,我们如果每天保存一份全量数据,但是数据量很大,每天都抽一份全量数据,再有钱的公司可能也支付不起数据库的费用,而且表中记录变化的比例和频率都不是很大,全量抽取数据库中会有大量的重复数据,没有意义;我们如果每天先drop掉前一天的数据,再重新抽取一份新的,这样解决了物理存储费用的问题,但是这样不能查看某一个订单在历史某一个时间点的状态,不能满足业务需求;所以我们需要是当数据发生变化时仅对该数据进行记录并修改的,可以存储历史数据的存储方法。有人就设计出了拉链表。
为了更直观的感受拉链表,请仔细观察下面表的变化,注意start_dt和end_dt是拉链表的精髓。
开始的时候
UserID |
UserName |
Height |
start_dt |
end_dt |
000000001 |
张三 |
176 |
2015-05-14 |
2999-12-31 |