分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。分动态和静态分区两种:
1. 静态分区:若分区的值是确定的,那么称为静态分区。新增分区或者是加载分区数据时,已经指定分区名。
create table if not exists day_part1(
uid int,
uname string
)
partitioned by(year int,month int)
row format delimited fields terminated by '\t';
##加载数据指定分区
load data local inpath '/root/Desktop/student.txt' into table day_part1 partition(year=2017,month=04);
##新增分区指定分区名
alter table day_part1 add partition(year=2017,month=1) partition(year=2016,month=12);
2. 动态分区:分区的值是非确定的,由输入数据来确定
2.1 动态分区的相关属性: