hive分区相关简述

分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中每个分区对应着表很多的子目录,将所有的数据按照分区列放入到不同的子目录中去。

Hive(Inceptor)分区又分为单值分区、范围分区。单值分区表的建表方式有两种:直接定义列和 CREATE TABLE LIKE。注意,单值分区表不能用 CREATE TABLE AS SELECT 建表。而范围分区表只能通过直接定义列来建表

单值分区根据插入时是否需要手动指定分区可以分为:单值静态分区:导入数据时需要手动指定分区。单值动态分区:导入数据时,系统可以动态判断目标分区。

 

1.单值分区

1.1创建静态分区

直接在 PARTITIONED BY 后面跟上分区键、类型即可。(分区键不能和任何列重名

 

1.2创建动态分区

创建方式与静态分区表完全一样,一张表可同时被静态和动态分区键分区,只是动态分区键需要放在静态分区键的后面(因为HDFS上的动态分区目录下不能包含静态分区的子目录),

 

数据写入:静态分区键要用 <spk>=<value> 指定分区值;动态分区只需要给出分区键名称 <dpk>。(见以下静态分区和动态分区混用实列)

静态分区和动态分区混用:动态分区键需要放在静态分区键的后面(因为HDFS上的动态分区目录下不能包含静态分区的子目录)

例:

 

--动态分区配置
set hive.exec.dynamic.partition=true; ----开启动态分区支持
set hive.exec.max.dynamic.partitions=2000; -----设置最大分区数
set hive.exec.dynamic.partition.mode=nonstrict; -----开启非严格模式,这个属性默认值是strict

 

注意,如果个人电脑性能不好,出现因为动态分区而导致的内存溢出问题,可以设置hive.optimize.sort.dynamic.partition进行避免:

               

设置为true后,当启用动态分区时,reducer仅随时保持一个记录写入程序,从而降低对 reducer产生的内存压力。但同时也会使查询性能变慢。

 

 

1.3过多的动态分区会导致如下错误:

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.
metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 100

解决:

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;

Hive动态分区创建文件数过多错误:

[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.

解决:

set hive.exec.max.created.files=150000;

 

 

2.范围分区:

单值分区每个分区对应于分区键的一个取值,每个范围分区则对应分区键的一个区间,只要落在指定区间内的记录都被存储在对应的分区下。

分区范围需要手动指定,分区的范围为前闭后开区间 [最小值, 最大值)。最后出现的分区可以使用 MAXVALUE 作为上限,MAXVALUE 代表该分区键的数据类型所允许的最大值。

例:

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值