hive实现全自动动态分区

最新推荐文章于 2024-05-03 10:16:00 发布

ZhuangYQ丶

最新推荐文章于 2024-05-03 10:16:00 发布

阅读量6.1k

点赞数 3

分类专栏：大数据学习 Hive学习文章标签：大数据动态分区

本文链接：https://blog.csdn.net/iilegend/article/details/93352328

版权

本文介绍了在大数据场景下如何使用Hive实现全自动动态分区。通过设置参数如hive.exec.max.dynamic.partitions.pernode和hive.exec.max.dynamic.partitions，解决分区过多导致的错误。将原有数据映射为临时表，创建缺少分区字段的分区表，然后利用临时表的最后一个字段作为分区依据进行插入，从而实现按bdp_day字段值动态分区存储。

摘要由CSDN通过智能技术生成

我们在业务中往往会遇到一种情况就是：

现有的业务已经有很多的数据堆积，并且需要根据现有的数据以分区的形式来建立数据仓库，这样的话就需要将表中的一个字段作为分区字段，以这个字段的值作为分区的依据。

那么就需要动态分区进行处理：

首先需要设置参数:


-- 表示开启动态分区功能 （默认false）
set hive.exec.dynamic.partition =true


--(默认strict),表示允许所有分区都是动态的，否则必须有静态分区字段
set hive.exec.dynamic.partition.mode = nonstrict

然后是可以调整的参数：（在这里遇到过坑，分区数太多，超出默认限制）

set hive.exec.max.dynamic.partitions.pernode=100 （默认100，一般可以设置大一点，比如1000）

表示每个maper或reducer可以允许创建的最大动态分区个数，默认是100，超出则会报错。

set hive.exec.max.dynamic.partitions =1000(默认值)

表示一个动态分区语句可以创建的最大动态分区个数，超出报错

set hive.exec.max.created.files =10000(默认) 全局可以创建的最大文件个数，超出报错。

设置完参数之后，将原有的数据映射成临时表，将所有的字段映射进去，包括分区的字段。

然后设置分区表，跟临时表少了一个字段，就是分区的字