Hive 数据表的分区和分桶

最新推荐文章于 2023-08-15 16:19:55 发布

Modify_QmQ

最新推荐文章于 2023-08-15 16:19:55 发布

阅读量1.1k

点赞数

分类专栏： # Hbase 文章标签： hive

本文链接：https://blog.csdn.net/qq_44973159/article/details/109092675

版权

Hbase 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

分区和桶是什么？

先了解一下分区和桶这两种数据类型

分区：

在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。

桶：

对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件（注意和分区的区别）。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user/hive/warehouse/wyp/part-00000；而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。

分区的桶的实现原理！

分区（partition）

hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制，在hive存储上就体现在表的主目录（hive的表实际显示就是一个文件夹）下的一个子目录，这个文件夹的名字就是我们定义的分区列的名字，没有实际操作经验的人可能会认为分区列是表的某个字段，其实不是这样，分区列不是表里的某个字段，而是独立的列，我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的，我们在查询某个具体分区列里的数据时候没必要进行全表扫描

桶（bucket)

table和partition都是目录级别的拆分数据，bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件，要使用bucket。物理上，每个桶就是表（或分区）目录里的一个文件，桶文件是按指定字段值进行hash，然后除以桶的个数(创建的时候设置)，最后去结果余数，因为整数的hash值就是整数本身。我们首先要打开hive对桶的控制，命令如下：set hive.enforce.bucketing = true

分区表的创建

先创建一个表，按照month和day进行分区，分区表本质上就是进行分发目录。

create table logs_partition(id int,name string) 
	partitioned by (month int,day int)

建表之后，我们进行添加分区

alter table logs_partition add partition (month = 5 , day = 12);

多添加几个分区：

在这里插入图片描述
分区添加完成之后，可以在50070对应的数据表当中进行查看，

在这里插入图片描述

数据加载

Hive不支持一条一条的用insert语句进行插入操作，也不支持update的操作。数据是以load的方式，加载到建立好的表中。数据一旦导入，则不可修改。要么drop掉整个表，要么建立新的表，导入新的数据。

语法：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename 
	[PARTITION (partcol1=val1, partcol2=val2 ...)]

说明：

Hive在数据load这块，大方向分为两种方式，load文件或者查询一张表，或者将某张表里的查询结果插入指定表。

load数据，hive支持文件夹的方式，将文件夹内的所有文件，都load到指定表中，而不用指定具体的文件名

Modify_QmQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive 数据表的分区和分桶

分区和桶是什么？先了解一下分区和桶这两种数据类型分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件（注意和分区的区别）。比如将wyp表id列分散至16
复制链接

扫一扫