Hive动态分区和分桶

最新推荐文章于 2023-04-27 18:39:54 发布

Geoffrey Turing

最新推荐文章于 2023-04-27 18:39:54 发布

阅读量1.2k

点赞数 64

分类专栏： Hive 文章标签：大数据 hive java

本文链接：https://blog.csdn.net/qq_37865420/article/details/106891688

版权

Hive 专栏收录该内容

16 篇文章 3 订阅

订阅专栏

1、Hive动态分区

1.1、hive的动态分区介绍

hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值，但是这样的话会导致用户的操作复杂度提高，而且在使用的时候会导致数据只能插入到某一个指定分区，无法让数据散列分布，因此更好的方式是当数据在进行插入的时候，根据数据的某一个字段或某几个字段值动态的将数据插入到不同的目录中，此时，引入动态分区。

1.2、hive的动态分区配置

--hive设置hive动态分区开启
	set hive.exec.dynamic.partition=true;
	默认：true
--hive的动态分区模式
	set hive.exec.dynamic.partition.mode=nostrict;
	默认：strict（至少有一个分区列是静态分区）
--每一个执行mr节点上，允许创建的动态分区的最大数量(100)
	set hive.exec.max.dynamic.partitions.pernode;
--所有执行mr节点上，允许创建的所有动态分区的最大数量(1000)	
	set hive.exec.max.dynamic.partitions;
--所有的mr job允许创建的文件的最大数量(100000)	----对应1G内存
	set hive.exec.max.created.files;
	
这里拓展下
	cat /proc/sys/fs/file-max --查看文件句柄数
	385915
这是因为本虚拟机为4G内存，1G内存对应大约10w个文件句柄数，4G差不多就是38w
	ulimit -a
里面有个open files 参数值为  1024
这个表示每个进程最多打开的文件数量

1.3、hive动态分区语法

--Hive extension (dynamic partition inserts):

	INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) 		select_statement FROM from_statement;
	
	INSERT INTO TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) 			select_statement FROM from_statement;

动态分区操作如下即可
在这里插入图片描述

2、Hive分桶

2.1、Hive分桶的介绍

分区：对数据横向切分；
分桶：对数据纵向切分；

	Bucketed tables are fantastic in that they allow much more efficient sampling than do non-bucketed tables, and they may later allow for time saving operations such as mapside joins. However, the bucketing specified at table creation is not enforced when the table is written to, and so it is possible for the table's metadata to advertise properties which are not upheld by the table's actual layout. This should obviously be avoided. Here's how to do it right.

跟MR中的HashPartitioner的原理一模一样

     MR中：按照key的hash值去模除以reductTask的个数

     Hive中：按照分桶字段的hash值去模除以分桶的个数

注意：

1、Hive分桶表是对列值取hash值的方式，将不同数据放到不同文件中存储

2、对于hive中每一个表、分区都可以进一步进行分桶

3、由列的hash值除以桶的个数来决定每条数据划分在哪个桶中

2.2、Hive分桶的配置

--设置hive支持分桶
	set hive.enforce.bucketing=true;
	----这个参数在1.x有的，2.x删除掉了，默认支持分桶操作的（即为true）

2.3、分桶的好处

1、方便抽样
2、提高join查询效率

2.4.hive分桶和分区的区别

1、分桶表和分区表的桶数和分区数的决定机制：

分桶表的个数：由用户的HQL语句所设置的reduceTask的个数决定
表的分区的个数：也能由用户自定义指定。也能由程序自动生成，分区是可以动态增长的

2、分桶表和分区表的个数的区别：

分桶表是一经决定，就不能更改，所以如果要改变桶数，要重新插入分桶数据
分区数是可以动态增长的
log日志
一天存一个分区

2.5、hive分桶的操作

首先创建一个分桶的空表，注意：是分桶的空表
然后创建个临时表，往临时表导入数据
然后在从临时表中分桶查询出来的数据insert到分桶的空表里

操作如下

2.5.1、创建分桶表

CREATE TABLE psnbucket( 
id INT, 
name STRING,
age INT) 
CLUSTERED BY (age) INTO 4 BUCKETS 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',';

2.5.2、创建临时表插入数据

CREATE TABLE psn31(
id INT, name STRING, age INT)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','; 

插入数据
1,tom,11 
2,cat,22 
3,dog,33 
4,hive,44 
5,hbase,55 
6,mr,66 
7，alice,77
8,scala,88

2.5.3 加载数据

insert into table psnbucket
select id, name, age from psn31;

2.5、数据分桶的缺陷

如果通过数据文件LOAD 到分桶表中，会存在额外的MR负担。
实际生产中分桶策略使用频率较低，更常见的还是使用数据分区。

2.5、Hive分桶的抽样查询

--案例
	select * from bucket_table tablesample(bucket 1 out of 4 on columns)
--TABLESAMPLE语法：
	TABLESAMPLE(BUCKET x OUT OF y)
		x：表示从哪个bucket开始抽取数据
		y：必须为该表总bucket数的倍数或因子
		
例如:
	bucket 3 out of 8;
	x=3
	y=8
	表示从下标为2的桶开始取数据，取（桶个数/y)数据

Geoffrey Turing

关注

64
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
4
评论
Hive动态分区和分桶

1、Hive动态分区1.1、hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值，但是这样的话会导致用户的操作复杂度提高，而且在使用的时候会导致数据只能插入到某一个指定分区，无法让数据散列分布，因此更好的方式是当数据在进行插入的时候，根据数据的某一个字段或某几个字段值动态的将数据插入到不同的目录中，此时，引入动态分区。1.2、hive的动态分区配置--hive设置hive动态分区开启 set hive.exec.dynamic.partition=
复制链接

扫一扫