通俗易懂的数仓拉链表设计模式详解

莫叫石榴姐

已于 2024-08-06 17:12:38 修改

阅读量817

点赞数 3

分类专栏：数字化建设通关指南文章标签：数据仓库数据分析大数据设计模式

于 2021-08-24 23:48:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godlovedaniel/article/details/117435590

版权

数字化建设通关指南专栏收录该内容

128 篇文章 51 订阅 ¥29.90 ¥99.00

订阅专栏

本文详细介绍了数据仓库中的拉链表设计模式，旨在解决数据更新时的历史状态存储问题。通过增量采集、合并数据和生成最新拉链表的过程，展示了如何在Hive中实现拉链表，以保留数据变化的历史记录，同时讨论了拉链表的优化策略，包括索引和按时间范围拆分表。

摘要由CSDN通过智能技术生成

目录

3 拉链表的设计

3.1功能与应用场景

3.2 实现过程

3.3 拉链表的实现

3.1数据准备

3.2 增量采集

3.3 合并数据

3.3 生成最新拉链表

4 拉链表优化问题

1 技术背景

所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。

Hive的主要作用就是构建离线数据仓库，此时就需要定期的不断的从各种数据源同步数据到数据仓库。例如，每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中，进行订单分析、用户分析。

数据仓库的数据模型设计过程中，经常会遇到这样的需求：

表中的部分字段会被update，例如：

用户的地址，产品的描述信息，品牌信息等等;

需要查看某一个时间点或者时间段的历史快照信息，例如：

查看某一个产品在历史

了解本专栏

莫叫石榴姐

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
通俗易懂的数仓拉链表设计模式详解

例如：物联网场景PHM项目中的，阈值表，阈值表存储在MYSQL中，其每个参数的阈值会通过手工输入的形式进行更新，但是更新的频度比较慢，有时候一月或半年，会随着时间的变化人工动态去通过界面设置这个阈值，而这些阈值通常需要同步到hive中与事实表进行关联，进行参数状态分析，此时为了保留历史状态信息，我们需要进行表设计。拉链表专门用于解决在数据仓库中数据发生变化如何实现数据存储的问题，如果直接覆盖历史状态，会导致无法查询历史状态，如果将所有数据单独切片存储，会导致存储大量非更新数据的问题。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。