hive 如何判断增量表和全量表

最新推荐文章于 2023-07-27 18:37:19 发布

大数据精读周刊

最新推荐文章于 2023-07-27 18:37:19 发布

阅读量5k

点赞数 8

分类专栏： # 数据仓库文章标签： hive 增量表全量表

感谢阅读到这里的你，总结会有不足之处，欢迎评论留言，讨论交流~

本文链接：https://blog.csdn.net/jankin6/article/details/118803143

版权

数据仓库专栏收录该内容

47 篇文章 14 订阅

订阅专栏

本文介绍了数据库中的四种表类型：全量表、快照表、增量表和拉链表。全量表存储每日最新数据，不保留历史；快照表按时间分区保存历史数据但占用较大空间；增量表记录每日新增或变更数据；拉链表则用于维护历史状态和当前状态，通过start_date和end_date检索特定时间范围的数据。理解这些概念对于数据库管理和优化至关重要。

摘要由CSDN通过智能技术生成

文章目录

- 定义
- 如何判断

定义

全量表

全量表没有分区，表中的数据是前一天的所有数据，比如说今天是24号，那么全量表里面拥有的数据是23号的所有数据，每次往全量表里面写数据都会覆盖之前的数据，所以全量表不能记录历史的数据情况，只有截止到当前最新的、全量的数据。

快照表

那么要能查到历史数据情况又该怎么办呢？这个时候快照表就派上用途了，快照表是有时间分区的，每个分区里面的数据都是分区时间对应的前一天的所有全量数据，比如说当前数据表有3个分区，24号，25号，26号。其中，24号分区里面的数据就是从历史到23号的所有数据，25号分区里面的数据就是从历史到24号的所有数据，以此类推。

但是这样也有一个问题，就是数据量大的时候，其实每个分区都存储了许多重复的数据，非常的浪费存储空间。

于是乎，拉链表就出来了。

在介绍拉链表之前，我们先介绍一下增量表。

增量表

增量表，就是记录每天新增数据的表，比如说，从24号到25号新增了那些数据，改变了哪些数据，这些都会存储在增量表的25号分区里面。上面说的快照表的25号分区和24号分区（都是t+1，实际时间分别对应26号和25号），它两的数据相减就是实际时间25号到26号有变化的、增加的数据，也就相当于增量表里面25号分区的数据。

拉链表

拉链表，它是一种维护历史状态，以及最新状态数据的一种表。拉链表也是分区表，有些不变的数据或者是已经达到状态终点的数据就会把它放在分区里面，分区字段一般为开始时间：start_date和结束时间：end_date。一般在该天有效的数据，它的end_date是大于等于该天的日期的。获取某一天全量的数据，可以通过表中的start_date和end_date来做筛选，选出固定某一天的数据。例如我想取截止到20190813的全量数据，其where过滤条件就是where start_date<=‘20190813’ and end_date>=20190813。