Hive Distribute by 应用之动态分区小文件过多问题优化

莫叫石榴姐

已于 2024-07-11 16:52:41 修改

阅读量6.1k

点赞数 12

分类专栏：数字化建设通关指南文章标签： hive

于 2021-08-25 16:40:08 首次发布

本文链接：https://blog.csdn.net/godlovedaniel/article/details/119911032

版权

数字化建设通关指南专栏收录该内容

94 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

0 问题现象及原因分析

现象：

[Error 20004]: Fatal error occurred when node tried to create 
too many dynamic partitions. The maximum number of dynamic 
partitions is controlled by hive.exec.max.dynamic.partitions and 
hive.exec.max.dynamic.partitions.pernode. Maximum was setto: 100

原因：

Hive对其创建的动态分区数量实施限制。默认值为每个节点100个动态分区，所有节点的总（默认）限制为1000个动态分区。但是，这可以调整。

1 问题解决

解决办法

set hive.exec.dynamic.partition=true;
set hive.exec.max.dynamic.partitions=2048;
set hive.exec.max.dynamic.partitions.pernode=256;

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

莫叫石榴姐

关注关注

12
点赞
踩
69

收藏

觉得还不错? 一键收藏
3
评论
Hive Distribute by 应用之动态分区小文件过多问题优化

本文分析了一种由动态分区产生小文件的或是集群中小文件过多的一种解决方案，采用distribute by cast(rand()*N as int)这一方式能很好的解决集群小文件问题，起到了优化作用。对于使用SparkSQL的用户来说，SparkSQL提供了repartition算子来解决这一问题，在这里其实repartition和distribute by的作用一致，在Spark 2.4.0版中提供了Hive中类似的Hint语法...
复制链接

扫一扫