Hive 分区与分桶

最新推荐文章于 2024-09-07 23:25:10 发布

m0_73889404

最新推荐文章于 2024-09-07 23:25:10 发布

阅读量401

点赞数 3

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73889404/article/details/139442244

版权

Hive 分区与分桶

一、Hive创建分区表语句

CREATETABLE employee_partitioned(

name string,

work_place ARRAY<string>,

sex_age STRUCT<sex:string,age:int>,

skills_score MAP<string,int>,

depart_title MAP<STRING,ARRAY<STRING>>)
指定分区“year”

PARTITIONE BY(year INT,month INT)

CLUSTERED BY(employee_id) INTO 2 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '|'

COLLECTION ITEMS TERMINATED BY','

MAP KEYS TERMINATED BY':';

stroed as textfile

强制分桶

set hive.enforce.bucketing=true;

使用emp表中的数据进行插入

Insert into table emp_name_buckets select * from emp;

二、Hive分区表/分桶表描述
（一）、Hive分区表描述回顾

1、分区列的值将表划分为文件夹

2、查询时使用“分区”列和常规列类似

3、查询时Hive自动过滤掉不用于提高性能的分区

（二）Hive分桶表描述回顾

1、分桶是相对分区进行更细粒度的划分

2、根据“桶列”的哈希函数将数据进行分桶

3、更高的查询处理效率

三、Hive分区、分桶（静态与动态）

（一）、动态分区：使用动态分区需设置

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

（二）Hive分桶：动态分桶（使用动态分桶需设置）

set hive.enforce.bucketing =true;

分桶相关操作
（一）随机抽样基于整行数据

SELECT*FROM table_name TABLESAMPLE(BUCKET 30UT OF 32 ON rand()s;

（二）随机抽样基于指定列(使用分桶列更高效)

SELECT*FROM table_name TABLESAMPLE(BUCKET 30UT OF 32 ON id)s;

（三）随机抽样基于block size

SELECT*FROM table_name TABLESAMPLE(10 PERCENT)s;

SELECT*FROM table_name TABLESAMPLE(1M)s;

SELECT*FROM table_name TABLESAMPLE(10 rows)s;

五、概念
（一）什么是分区

在Hive中，分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区，可以将数据按照特定的维度进行组织，提高查询效率和数据管理的灵活性。

（二）分区的优势

1、提高查询性能：通过分区，可以将数据按照特定的列值进行划分，使得查询只需要扫描特定分区的数据，减少了全表扫描的开销。

2、管理数据更加灵活：可以根据业务需求对数据进行分区，方便数据的管理和维护。

3、支持数据生命周期管理：可以根据数据的时间或其他维度进行分区，方便数据的归档和清理。

（三）什么是分桶

分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶，可以将数据均匀地分布到不同的桶中，提高查询的并行度和性能。

（四）分桶的优势

1、提高查询性能：通过分桶，可以将数据均匀地分布到不同的桶中，使得查询可以并行地处理不同的桶，提高查询性能。

2、支持随机抽样：分桶可以方便地进行随机抽样操作，从而进行数据分析和调试。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive 分区与分桶

在Hive中，分区是将表的数据按照某个列的值进行划分和存储的一种方式。1、提高查询性能：通过分区，可以将数据按照特定的列值进行划分，使得查询只需要扫描特定分区的数据，减少了全表扫描的开销。1、提高查询性能：通过分桶，可以将数据均匀地分布到不同的桶中，使得查询可以并行地处理不同的桶，提高查询性能。3、支持数据生命周期管理：可以根据数据的时间或其他维度进行分区，方便数据的归档和清理。2、管理数据更加灵活：可以根据业务需求对数据进行分区，方便数据的管理和维护。（二）Hive分桶：动态分桶（使用动态分桶需设置）
复制链接

扫一扫

m0_73889404 CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

147万+: 周排名

12万+: 总排名

4836: 访问

: 等级

208: 积分

62: 粉丝

95: 获赞

2: 评论

81: 收藏

私信

关注

热门文章

最新评论

Hive数据关联操作
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hive 内部与外部表
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。