拉链表（hive）

最新推荐文章于 2025-02-27 11:40:03 发布

SimPM

最新推荐文章于 2025-02-27 11:40:03 发布

阅读量5.1k

点赞数 5

文章标签： ETL 拉链表 Hive

本文链接：https://blog.csdn.net/weixin_35995069/article/details/83021877

版权

1、什么是拉链表

2、拉链表是怎么存储的

3、Hive中拉链表的存储过程

1、什么是拉链表

拉链表是我们存储数据时为了处理某些情况而设计的一种表结构，是一种存储数据的方法。

在数据仓库的数据模型设计过程中，经常会遇到下面这种表的设计：

1.有一些表的数据量很大，比如一张用户表，大约10亿条记录，50个字段，这种表，即使使用ORC压缩，单张表的存储也会超过100G，在HDFS使用双备份或者三备份的话就更大一些。

2.表中的部分字段会被update更新操作，如用户联系方式，产品的描述信息，订单的状态等等。应用时需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态。

3.表中的记录变化的比例和频率不是很大，比如，总共有10亿的用户，每天新增和发生变化的有200万左右，变化的比例占的很小。

这种情况下，我们如果每天保存一份全量数据，但是数据量很大，每天都抽一份全量数据，再有钱的公司可能也支付不起数据库的费用，而且表中记录变化的比例和频率都不是很大，全量抽取数据库中会有大量的重复数据，没有意义；我们如果每天先drop掉前一天的数据，再重新抽取一份新的，这样解决了物理存储费用的问题，但是这样不能查看某一个订单在历史某一个时间点的状态，不能满足业务需求；所以我们需要是当数据发生变化时仅对该数据进行记录并修改的，可以存储历史数据的存储方法。有人就设计出了拉链表。

为了更直观的感受拉链表，请仔细观察下面表的变化，注意start_dt和end_dt是拉链表的精髓。

开始的时候