拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
下面就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。
| 注册日期 | 用户编号 | 手机号码 | t_start_date | t_end_date |
|---|---|---|---|---|
| 2017-01-01 | 001 | 111111 | 2017-01-01 | 9999-12-31 |
| 2017-01-01 | 002 | 222222 | 2017-01-01 | 2017-01-01 |
| 2017-01-01 | 002 | 233333 | 2017-01-02 | 9999-12-31 |
| 2017-01-01 | 003 | 333333 | 2017-01-01 | 9999-12-31 |
| 2017-01-01 | 004 | 444444 | 2017-01-01 | 2017-01-01 |

本文介绍了数据仓库中的拉链表概念及其在大数据处理中的应用,详细阐述了拉链表的使用场景、设计与实现,特别是如何在Hive中创建和更新拉链表。此外,还讨论了拉链表与流水表的区别以及查询性能优化策略。
订阅专栏 解锁全文
1553

被折叠的 条评论
为什么被折叠?



