Hive踩坑之动态和静态分区混合使用

  1. 分区是hive非常高效的一种存储方式,将列值作为目录进行存储数据,当使用where条件过滤的时候就会直接扫描对应的目录下的数据,不扫描其他不关联的分区,快速定位,查询节约大量时间。分区分为动态和静态两种分区。那么今天我们就来看看这其中需要注意的事项和容易采的坑。

  2. 动态分区

    1. 不显示的给出分区名,根据列的取值自动建立对应的分区,有多少种取值就有多少种分区,所以这在实际生产中很容易导致生成大量的分区,也就导致HDFS生成大量的小文件(这里是需要注意的),所以我们要设置最大分区数。
    SET hive.exec.dynamic.partition=true;
    SET hive.exec.max.dynamic.partitions.pernode=1000;
    SET hive.exec.max.dynamic.partitions=3000; 
    
    1. 分区全部使用动态分区,还要设置为nonstatic模式,否则无法运行。
    set hive.exec.dynamic.partition.mode=nonstrict;
    
    1. 动态分区时按位置对应的,跟名称无关。所以在select后面必须按照动态分区顺序进行查询。
  3. 接下来我们看看动态分区和静态分区混用的时候需要注意的点。

    insert overwrite table user_info partition (dt='2016-05-17', media,type)
    select 
    	id,
    	name,
    	phone,
    	media,
    	'type' as type
    from user
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值