数据仓库Hive的分区表与分桶表

最新推荐文章于 2024-09-08 18:21:03 发布

阳哥赚钱很牛

最新推荐文章于 2024-09-08 18:21:03 发布

阅读量2.2k

点赞数 7

本文链接：https://blog.csdn.net/m0_57668040/article/details/119920796

版权

Hadoop 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

HIVE

5 篇文章 0 订阅

订阅专栏

一、分区表

分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

所谓的分区表其实和表中的字段没什么区别，包括其使用，唯一的区别就是在于向hdfs写表数据的时候，会以分区值先在表的hdfs目录下创建一个分区目录，再添加数据。

我们举一个具体的案例来讲解一下：

现在有学生不同年份的成绩汇总，由于数据量大，我们要把学生成绩按不同年份进行分区：

1、引入分区表

/user/hive/warehouse/school.db/2018/2018.txt

/user/hive/warehouse/school.db2019/2019.txt

/user/hive/warehouse/school.db/2020/2020.txt

2、创建分区表语法（DDL操作）创建一级分区

语法：create table tableName(字段列表)
partitioned by(分区字段字段类型)
row format delimited fields terminated by ","

注意事项：分区字段不能是表字段，因为分区字段在一定程度上可以为表字段

hive (school)> create table sspartition

               (deptno int, dname string, loc string)

               partitioned by (year string)

               row format delimited fields terminated by ',';

3、加载数据到表中（DML操作）

如果要向分区表中添加数据，在insert语句中必须指定partition（一个表既然指定为分区表，说明它数据量大，我们一般不使用insert语句进行添加数据）一般我们都使用load的方法区加载分区表数据

语法：insert into table partition(分区字段=值) values()

insert into sspartition partition(year="2020") values("zs",66);

接着我们就会在/user/hive/warehouse/school.db/sspartition下看到year=2020的目录

点进去就可以看到新建的分区000000_0

一旦一个表指定为分区表之后，增加数据必须去指定数据所在分区

我们来看一下load方法添加数据：

语法：load data [local] inpath '' into table tableName partition(分区字段=值)

hive(school)>load data local inpath '/opt/data/ss-2018.txt' into

table sspartition partition(year='2018');

4、查询分区表中的数据（DML操作）

查询表中所有分区的数据，分区字段会和表字段一样去显示：

select * from tableName

查询指定分区的数据：
select * from tableName where 分区字段=分区值

5、修改表的分区（DDL操作）

表创建成功表分区的规则已经定义好，修改表分区就是给表增加、删除一个分区。

增加分区：

创建单个分区：

hive (default)> alter table sspartition add partition(year='2021') ;

同时创建多个分区

hive (default)> alter table sspartition add

partition(year='2022') partition(year='2023');

分区字段无法动态增加，只有创建表的时候去指定，但是我们可以根据分区字段动态增加删除分区

删除分区：

删除单个分区

hive (default)> alter table sspartition drop partition (year='2021');

同时删除多个分区

hive (default)> alter table dept_partition drop

partition (year='2022'), partition (year='2023');