Hive分区表静态分区和动态分区使用

7 篇文章 0 订阅

一、静态分区

创建一张表

create table info(
id    string
,sex  string
,dt   string
)
;

导入8条数据如下

insert into info select '001','male','201001';
insert into info select '002','female','201001';
insert into info select '003','male','201002';
insert into info select '004','female','201002';
insert into info select '005','male','201003';
insert into info select '006','female','201003';
insert into info select '007','male','201004';
insert into info select '008','female','201004';

创建一级分区表

create table info_pt1(
id    string
,sex  string
,dt   string
)
PARTITIONED BY (dt_pt string) 
;

1.指定分区,将数据导入分区中

insert overwrite table info_pt1 partition (dt_pt='201001')
select
id  
,sex
,dt 
from info
where dt='201001'
;

查询表,202001分区中确实有数据了,并且分区目录已创建好,分区目录中有数据文件

2.创建二级分区表

create table info_pt2(
id    string
,sex  string
,dt   string
)
PARTITIONED BY (dt_pt string,sex_pt string) 
;

将数据导入二级分区,注意分区字段值不要用中文

insert overwrite table info_pt2 partition (dt_pt='201001',sex_pt='male')
select
id  
,sex
,dt 
from info
where dt='201001' and sex='male'
;

查询二级分区表

 

二、动态分区

动态分区有两项需要设置,如下

set hive.exec.dynamici.partition=true;  --开启动态分区,默认是false
set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的

1.一级分区动态分区

删除之前一级分区表的分区,删除分区会将hdfs上的分区文件夹删掉,move到.trash文件夹中,默认保留7天,删除所有分区后表就会查询不到数据

ALTER TABLE info_pt1 DROP IF EXISTS PARTITION (dt_pt='201001');

动态分区插入数据

set hive.exec.dynamici.partition=true;  --开启动态分区,默认是false
set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的
insert overwrite table info_pt1
select
id  
,sex
,dt 
,dt as dt_pt
from info
;

查询发现数据都插入到对应的分区,在hdfs上数据落在不同的分区目录下

2.二级动态分区

二级全动态分区

set hive.exec.dynamici.partition=true;  --开启动态分区,默认是false
set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的
insert overwrite table info_pt2
select
id  
,sex
,dt 
,dt as dt_pt
,sex as sex_pt
from info
;

查询结果如下

一级静态分区,二级动态分区

ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201001');
ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201002');
ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201003');
ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201004');
set hive.exec.dynamici.partition=true;  --开启动态分区,默认是false
set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的
insert overwrite table info_pt2 partition(dt_pt='201001',sex_pt)
select
id  
,sex
,dt 
,sex as sex_pt
from info
where dt='201001'
;

查询结果如下

 

三、注意项:

1.分区字段就是字段,可以用来取值和筛选,分区字段不同点表现在hdfs有分区字段目录,对于内部表来说表目录下就是数据文件,分区表的表下面有分区目录,分区目录下才是文件。

2.分区表相对于内部表的优点:内部表查询时扫描表目录下的所有文件,分区表筛选对应分区,会到分区对应的目录下扫描文件,查询效率大大提升。

3.静态分区适用可以传参的情况下,shell中hive --hiveconf和--hivevar可以实现传参。只能写sql的话建议适用动态分区,动态分区还可用来刷数据,在维度表变化的情况下,分区表使用动态分区可以快速刷新历史数据。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值