Hive分桶使用

原创

于 2019-08-19 00:30:10 发布 · 211 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了Hive的分桶概念，包括如何在建表时设置分桶和开启分桶功能。分桶主要作用在于数据读取的有序性和提高特定场景下如数据抽样和join操作的效率。适用场景包括数据抽样分析和优化join操作，要求分桶字段和数量在join的两个表中保持一致。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive分桶

Hive中的每一个表，每一个分区都可以进行分桶，表或者分区实际上是以文件的形式在hdfs上存储，而分桶物理上相当于将一个文件分成几个文件进行存储，分桶用于大规模数据集。

create table student_bucket(id INT, name STRING, age INT)
clustered by (age) into 4 buckets
ROW FROMAT DELIMITED FIELDS TERMINATED<