【Hive】分桶表

最新推荐文章于 2022-07-06 10:55:50 发布

飝鱻.

最新推荐文章于 2022-07-06 10:55:50 发布

阅读量269

点赞数 1

分类专栏： Hive

本文链接：https://blog.csdn.net/heiren_a/article/details/115509132

版权

Hive 分桶表数据管理查询优化数据导入

关键词由CSDN通过智能技术生成

Hive 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

分桶表

先创建分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。
分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径；分桶针对的是数据文件。

先创建分桶表

数据准备
在这里插入图片描述

建表
以sid分桶，分四桶

create table stu_buck(sid int,subject string,score int)
clustered by (sid)
into 4 buckets
row format delimited fields terminated by ',';

查看表结构
desc formatted stu_buck;
在这里插入图片描述
导入数据到分桶表中，load 的方式
load data local inpath '/home/data/hive/stu_buck' into table stu_buck;

集群上的数据已经分为了四分

查看数据
select * from stu_buck limit 100;