hive分区表和分桶表

最新推荐文章于 2023-01-09 10:22:07 发布

MicoOu

最新推荐文章于 2023-01-09 10:22:07 发布

阅读量811

点赞数 1

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/MicoOu/article/details/103417841

版权

分区是在该表的目录下创建多个文件夹分别存储数据。

关键语法：partitioned by

创建分区表 student_ptn：
create table student_ptn(id int,name string,age int,department string)
partitioned by(gender string)
row format delimited fields terminated by “,”;

注意：分区字段不能与表字段重复。
创建分区表后，可以通过show partitions student_ptn;查看是否有分区定义，刚创建出来一般是没有的。
通过alter语法添加一个或多个分区定义（该例子以性别作为分区）：
alter table student_ptn add partition(gender=‘male’);
alter table student_ptn add partition(gender=‘female’);

对应地，在HDFS上也能看见创建的分区文件夹，d代表文件夹。
往分区表中的分区文件夹下导入数据：
导入数据的方式可查看这篇文章：hive数据导入的6种方式

这里主要介绍2种插入方法：
1）insert…values… （一般是用作测试）
insert into table student_ptn partition(gender=‘male’) values(1,“小明”,18,“MA”);

2）//单重或多重插入
from 数据表
insert…select…

//单重插入
from student
insert into table student_ptn partition(gender=“male”) select id,name,age,department where gender = “男”;

//多重插入，insert之间不用逗号分隔
from student
insert into table student_ptn partition(gender=‘male’) select id,name,age,department where gender=“男”
insert into table student_ptn partition(gender=‘female’) select id,name,age,department where gender=“女”;

//查询是否

关注