distribute by控制分区文件数
1、学习别人的资料:
distribute by控制分区文件数
解决Hive创建文件数过多的问题
2、实战经验:
开发过程中,用动态分区补历史数据,动态分区342个,mapreduce如图1,脚本报错:产生了超1万个文如图2。采用distribute by动态分区字段解决问题。
图1
图2
3、语法示例:
insert overwrite table table_name partition (busi_date)
select
...
,calendar_day as busi_date
from
table
where ...
distribute by calendar_day ;