hdfs 下小文件是最致命的影响之一
Hive 命令
hive.merge.mapredfiles=true;
hive.merge.mapfiles=true
hive.merge.rcfile.block.level=true
hive.merge.size.per.task=256000000
hive.merge.smallfiles.avgsize=16000000
tez 命令
hive.merge.tezfiles=true
spark 命令 :
hive.merge.sparkfiles=true