分区、分桶

yxsp

已于 2024-06-22 21:23:18 修改

阅读量741

点赞数 18

文章标签：数据仓库 hive hadoop

于 2024-06-22 19:33:33 首次发布

本文链接：https://blog.csdn.net/m0_74973418/article/details/139886829

版权

一、Hive定义分区/分桶表

Hive创建分区表语句

二、Hive分区表/分桶表描述

（1） Hive分区表描述：
分区列的值将表划分为文件夹

查询时使用“分区”列和常规列类似

查询时Hive自动过滤掉不用于提高性能的分区

（2）Hive分桶表描述：
分桶是相对分区进行更细粒度的划分

根据“桶列”的哈希函数将数据进行分桶

更高的查询处理效率

三、Hive操作分区/分桶类型及设置

（1）Hive分区

静态分区

动态分区

#使用动态分区需设置
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

（2）Hive分桶

动态分桶

#使用动态分桶需设置
set hive.enforce.bucketing = true;

四、Hive操作分区

静态分区操作示例

ALTER TABLE employee_partitioned ADD
PARTITION (year=2017,month=3) PARTITION (year=2017,month=4);
ALTER TABLE employee_partitioned DROP PARTITION(year=2017, month=4);

动态分区操作示例

INSERT INTO TABLE employee_partitioned PARTITION(year, month)SELECT name,array('Toronto') AS work_place,
named_struct(""sex","male" ,"age",30) AS sex_age,map("python",90)AS skills_score,
map("r&d" , array('developer')) AS depart_title,year(start_date) AS year,
month(start_date) AS monthFROM employee_hr;