Hive查询涉及的小文件过多对MR作业的危害:
Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。
一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多,那么每一个map task只是处理很小的input数据,会产生大量的map tasks,每一个map task都会额外增加bookkeeping开销(each of which imposes extra bookkeeping overhead)。比如说一个1GB的文件拆分成8个块大小文件(默认block size为128M),相对于拆分成10000个100KB的小文件,后者每一个小文件分别启动一个map task,那么job的处理时间将会比前者要慢几十倍甚至更多。
所以需要对输入map任务的小文件们合并一下,hive-site.xml中有几个与合并小文件有关的参数。
hive.merge.mapfiles :是否开启合并 Map 端小文件,true是打开
hive.merge.mapredfiles :是否开启合并 Map/Reduce 小文件,true是打开
hive.hadoop.supports.splittable.combineinputformat :是否支持可切分的CombieInputFormat ,true是支持
检验——
(1&#