Hive静态分区和动态分区

4 篇文章 0 订阅
4 篇文章 0 订阅
Hive分区的作用

如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的存在,极大的缩小了数据的查询范围,比如以天为单位的分区字段,在查询2020年3月份的相关数据时,只需限制分区字段的时间在2020-03-01~2020-03-31之间,Hive就会根据分区字段条件直接找到几年数据中归属2020年3月份的数据,然后在对2020年3月份的数据根据具体的逻辑进行处理即可,而不需要几年的数据全部都扫描一次。
不难看出,Hive分区,主要是以缩小数据查询范围,提高查询速度和性能的。

Hive静态分区

Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好,来看看静态分区的HQL

insert overwrite table demo_static_partition 
partition(year="2020", month="04", 
day="2020-04-10", hour="22") 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 
where trade_year="2020" 
and trade_month="04" 
and trade_day="2020-04-10" 
and trade_hour="22" 

语句中partition(year=“2020”, month=“04”, day=“2020-04-10”, hour=“22”) 的年月日小时手动指定了具体的值,这样的分区就叫静态分区了,是不是很简单?

Hive动态分区

Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值,就可以了,来看看动态分区相关的HQL

insert overwrite table demo_dynamic_partition 
partition(year=year, month=month, 
day=day, hour=hour) 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 

语句中partition(year=year, month=month, day=day, hour=hour)会根据具体值的变化而变化,无需手动指定,这对于大批量的分区插入是一个很方便的用法,但需要根据业务需求衡量分区数量是否合理的问题。毕竟分区会占用IO资源,数量越多,IO资源消耗越大,查询时间和性能都是有所损耗的。
在创建动态分区时,经常遇到自动插入分区失败的问题,通过日志分析,可以知道,一种是没有开启动态分区模式,一种是严格模式导致的动态分区插入失败,一种是默认分区数量不足导致的分区插入失败。我们来了解一下,与动态分区相关的一些参数,以便更好的使用。

-- Hive默认配置值

-- 开启或关闭动态分区
hive.exec.dynamic.partition=false;

-- 设置为nonstrict模式,让所有分区都动态配置,否则至少需要指定一个分区值
hive.exec.dynamic.partition.mode=strict;

-- 能被mapper或reducer创建的最大动态分区数,超出而报错
hive.exec.max.dynamic.partitions.pernode=100;

-- 一条带有动态分区SQL语句所能创建的最大动态分区总数,超过则报错
hive.exec.max.dynamic.partitions=1000;

-- 全局能被创建文件数目的最大值,通过Hadoop计数器跟踪,若超过则报错
hive.exec.max.created.files=100000;

-- 根据个人需要配置
set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=10000;
set hive.exec.max.created.files=1000000;
Hive静态分区和动态分区结合使用

当你想每天执行某个时间段的分区数据插入,可以考虑一下动静分区结合方式,来看看HQL如何写?

insert overwrite table demo_static_partition 
partition(year="2020", month="04", 
day=day, hour=hour) 
select user_id, user_name, 
trade_year as year ,
trade_month as month,
trade_day as day,
trade_hour as hour  
from user_demo 
where trade_year="2020" 
and trade_month="04" 
-------更多精彩,可关注微信公众号:"大数据分析猫"-------

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值