概念:Hive的表有两种:内部表和外部表;并且都可以是分区表。
作用:可以避免查询整表,在生产环境下,基本都是建立带有分区字段的表,在查询时,带上分区条件。
分区表在HDFS,一个分区,就对应一个目录。
分区表的实际应用:一般是以天为单位来建立分区,这样方便管理表数据,尤其是按日期查询很方便。
比如:
普通表和分区表区别:有大量数据增加的需要建分区表。
语法:create table xxx(字段) partitioned by (xxx string) row format delimited fields terminated by ‘切割格式’; (注:在创建分区表时,partitioned字段可以不再字段列表中。生成的表中自动就会有该字段。xxx自定义分区字段,根据xxx进行分区)
分区表加载数据
load data local inpath '数据路径' overwrite into table book partition (xxx=‘区名’);
例:
查询语句:select * from book where xxx=‘区名’;
通过创建目录来增加分区
如果想现在HDFS的目录项,自己创建一个分区目录,然后在此目录下上传文件,比如:
此时手动创建目录是无法被hive使用的,因为元数据库中没有记录该分区。需要将自己创建的分区也能被识别,需要执行:
ALTER TABLE xxx add PARTITION(category='区名') location '分区路径';
分区命令
1.显示分区:show partitions iteblog;
2.添加分区:alter table xxx add partition(xxx='..') location 'lujing'; 或者 msck repair table xxx;
3.删除分区:alter table xxx drop partition(xxx='..');
4.修改分区:alter table book partition (xxx='aa') rename to partition (xxx='bb');