Hive分区表和分桶表

最新推荐文章于 2024-07-29 20:39:23 发布

YIRIGUElegance

最新推荐文章于 2024-07-29 20:39:23 发布

阅读量1.4k

点赞数

文章标签： hive hadoop hdfs

本文链接：https://blog.csdn.net/YIRIGUElegance/article/details/120907925

版权

本文介绍了Hive中的分区表和分桶表，旨在提高查询效率。分区表通过将数据按特定字段（如日期）存储在子目录中，查询时仅扫描所需分区。创建分区表并加载数据涉及动态分区设置。分桶表则是通过哈希散列将数据分配到不同桶中，类似HashMap，常与CTAS操作一起使用。文章还讨论了分区表和分桶表的结合使用以及遇到的字段添加后显示为空的问题及其解决方案。

摘要由CSDN通过智能技术生成

一、分区表
1.1 概念
Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。
分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。

这里说明一下分区表并 Hive 独有的概念，实际上这个概念非常常见。比如在我们常用的 Oracle 数据库中，当表中的数据量不断增大，查询数据的速度就会下降，这时也可以对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据存放到多个表空间（物理文件上），这样查询数据时，就不必要每次都扫描整张表，从而提升查询性能。

1.2 使用场景
通常，在管理大规模数据集的时候都需要进行分区，比如将日志文件按天进行分区，从而保证数据细粒度的划分，使得查询性能得到提升。

1.3 创建分区表
在 Hive 中可以使用 PARTITIONED BY 子句创建分区表。表可以包含一个或多个分区列，程序会为分区列中的每个不同值组合创建单独的数据目录。下面的我们创建一张雇员表作为测试：

CREATE EXTERNAL TABLE emp_partition(
empno INT,
ename STRING,
job STRING,
mgr INT,
hiredate TIMESTAMP,
sal DECIMAL(7,2),
comm DECIMAL(7,2)
)
PARTITIONED BY (deptno INT) -- 按照部门编号进行分区
ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
LOCATION '/hive/emp_partition';

1.4 加载数据到动态分区
要设置动态插入操作，必须设置动态分区相关参数
动态分区参数：

hive.exec.dynamic.partition 默认值：false
是否开启动态分区功能，默认false关闭。
使用动态分区时候，该参数必须设置成true;
hive.exec.dynamic.partition.mode
默认值：strict
动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。
一般需要设置为nonstrict
hive.exec.max.dynamic.partitions.pernode
默认值：100
在每个执行MR的节点上，最大可以创建多少个动态分区。
该参数需要根据实际的数据来设定。
比如：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认值100，则会报错。
hive.exec.max.dynamic.partitions
默认值：1000
在所有执行MR的节点上，最大一共可以创建多少个动

最低0.47元/天解锁文章

YIRIGUElegance

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive分区表和分桶表

一、分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。这里说明一下分区表并 Hive 独有的概念，实际上这个概念非常常见。比如在我们常用的 Oracle 数据库中，当表中的数据量不断增大，查询数据的速度就会下降，这时也可以
复制链接

扫一扫