hive动态分区

最新推荐文章于 2023-09-11 13:21:21 发布

shengjk1

最新推荐文章于 2023-09-11 13:21:21 发布

阅读量718

点赞数

分类专栏：工作之行文章标签： hive 动态分区分区

本文链接：https://blog.csdn.net/jsjsjs1789/article/details/53099306

版权

工作之行专栏收录该内容

158 篇文章 6 订阅

订阅专栏

hive分区可以方便快速定位，查找( 设置分区，可以直接定位到hdfs上相应的文件目录下，避免全表扫描)。
hive分区可以分为静态分区、动态分区，另外静动态分区又都可以分为复合分区和单分区表。下面我们以动态复合分区为例，来记述一下分区的建立。

下面，让我们一起开始hive动态复合分区的冒险之旅吧！吼吼
基于hive1.1

1.建分区表

create  table scan_details(
logTime string,
logid string,
tyopenId string,
useragent string)partitioned by (ecodeId string,date string)
STORED AS PARQUET

2.设置相关的参数

set hive.exec.dynamic.partition=true //使用动态分区
set hive.exec.dynamic.partition.mode=nonstrick;//无限制模式，如果模式是strict，则必须有一个静态分区，且放在最前面
set hive.exec.max.dynamic.partitions.pernode=10000;//每个节点生成动态分区的最大个数
set hive.exec.max.dynamic.partitions=100000;//生成动态分区的最大个数
set hive.exec.max.created.files=150000;//一个任务最多可以创建的文件数目
set dfs.datanode.max.xcievers=8192;//限定一次最多打开的文件数
set hive.merge.mapfiles=true; //map端的结果进行合并
set mapred.reduce.tasks =20000;  //设置reduce task个数

3.进行数据插入

insert into scan_details partition(ecodeId,date) select logTime,logid,tyopenId,logid as ecodeId, logTime as date from testt2;
注意:最后两个字段的名字需要跟动态分区字段的名字一致

4.注意：

1.外部表同样适用
2.若分区字段为空，也就是本例中logTime 为空
这里写图片描述

这里写图片描述

3.动态分区不允许主分区静态，从分区动态

hive> insert into scan_detailstest partition(ecodeId,date='12') values('a','aa','c','v','b');

FAILED: SemanticException [Error 10094]: Line 1:39 Dynamic partition cannot be the parent of a static partition ''12''

4.如果分区是可以确定的话，千万不要用动态分区，动态分区相较与静态分区，效率会低一些。因为动态分区的值是在reduce运行阶段确定的，也就是会把所有的记录distribute by，而Distribute by 按指定字段，将数据划分到不同的Reduce中，所以当数据大的时候，Reduce的数量直接影响着效率的高低。

5.删除某一分区

ALTER TABLE  scan_detailstest  DROP IF EXISTS PARTITION (date='b');
ALTER TABLE  scan_detailstest  DROP IF EXISTS PARTITION (date='b'，country='us');

参考网址：

https://cwiki.apache.org/confluence/display/Hive/DynamicPartitions

shengjk1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录