Hive 之内/外表与分区表/桶表区别

最新推荐文章于 2024-08-01 12:41:16 发布

zz657114506

最新推荐文章于 2024-08-01 12:41:16 发布

阅读量2.8k

点赞数 1

分类专栏： Hive 文章标签： hive 数据仓库

本文链接：https://blog.csdn.net/zz657114506/article/details/53596643

版权

Hive 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

内表：删表删数据（hdfs上的文件数据）
外表：删表不删数据（hdfs上的文件数据）

内表
创建表时没加external，默认是内表
- 所有的 Table 数据（不包括 External Table）都保存在warehouse这个目录中。
- 删除表时，元数据与数据都会被删除
- 创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除
外表
包含External 的表叫外部表
- 删除外部表只删除metastore的元数据，不删除hdfs中的表数据
- 外部表只有一个过程，加载数据和创建表同时完成，并不会移动到数据仓库目录中，只是与外部数据建立一个链接。当删除一个外部表时，仅删除该链接
- 指向已经在 HDFS 中存在的数据，可以创建 Partition
- 它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异
分区表
加入分区避免Hive Select查询中扫描整个表内容，会消耗很多时间做没必要的工作。（例如每一天的日志存放在一个分区中，这样根据特定的日期查询）

一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。
桶表
对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

桶是以文件的形式存放在表或者分区的目录下。

把表（或者分区）组织成桶（Bucket）有两个理由：
（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。
（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。