hive 修改分桶数分桶表_hive 分区表分桶表详细介绍

最新推荐文章于 2021-10-22 09:44:16 发布

林国宇

最新推荐文章于 2021-10-22 09:44:16 发布

阅读量679

点赞数

文章标签： hive 修改分桶数分桶表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34561373/article/details/112866063

版权

默认情况下，简单的HQL查询会扫描整个表。查询大表时，这会降低性能。可以通过创建分区来解决此问题。在Hive中，每个分区对应于预定义的分区列，这些分区列映射到HDFS中表的目录中的子目录。当查询表时，只读取表中所需的数据分区(目录)，因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。

一，什么是分区和分桶

分区为HDFS上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。

分区提供了一个隔离数据和优化查询的可行方案，但是并非所有的数据集都可以形成合理的分区，分区的数量也不是越多越好，过多的分区条件可能会导致很多分区上没有数据。同时 Hive 会限制动态分区可以创建的最大分区数，用来避免过多分区文件对文件系统产生负担。鉴于以上原因，Hive 还提供了一种更加细粒度的数据拆分方案：分桶表 (bucket Table)。

分桶表会将指定列的值进行哈希散列，并对 bucket(桶数量)取余，然后存储到对应的 bucket(桶)中。

二，创建分区，分桶表

1，创建分区表

create table `tank_test1` (

`log_time` int,

`aid` string,

`aid_name` string,

`ip` string

)

PARTITIONED BY (log_date int)

ROW FOR

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hive 修改分桶数分桶表_hive 分区表分桶表详细介绍

默认情况下，简单的HQL查询会扫描整个表。查询大表时，这会降低性能。可以通过创建分区来解决此问题。在Hive中，每个分区对应于预定义的分区列，这些分区列映射到HDFS中表的目录中的子目录。当查询表时，只读取表中所需的数据分区(目录)，因此查询的I/O和时间大大减少。使用分区是提高Hive性能的一种非常简单有效的方法。一，什么是分区和分桶分区为HDFS上表目录的子目录，数据按照分区存储在子目录中。如...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。