一文彻底学会hive分桶表（实战详解）

最新推荐文章于 2025-02-24 22:25:34 发布

且听_风吟

最新推荐文章于 2025-02-24 22:25:34 发布

阅读量1.4w

点赞数 64

分类专栏： HIVE 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_26803795/article/details/105205702

版权

本文详细介绍了Hive分桶表的概念、与分区表的区别，通过实例演示了如何创建和导入数据到分桶表，强调了正确导入的必要性和分桶规则。分桶表能提高查询效率，便于抽样调查，其本质是MapReduce的分区。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分桶是将数据集分解成更容易管理的若干部分的一个技术，是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。

常用于：

分区表提供了一个隔离数据和优化查询的便利方式。但是在实际场景下，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive还可以进一步组织成桶，也就是更为细粒度的数据范围划分。

小结一波：

首先说明一下，我的hive环境是基于docker-compose构建，使用postgresql管理metastore，各重要组件版本如下：

hadoop：2.7.4

hive：2.3.2

java：1.8

其实环境不重要，不用花太多时间，主要还是技术部分，接下来就开始实战吧。

我们创建一个简单的分桶表，只有两个字段（id，name），并且按照id进行分6个桶，sql如下：

create table test_buck(id int, name string)
clustered by(id) 
into 6 buckets
row format delimited fields terminated by '\t';

执行并查看表结构：
创建分桶表并查看表结构

使用desc formatted test_buck;查看test_buck表结构，数据较多，这里截取重要数据如下：
分桶表结构重要数据