HDFS小文件处理
1.采用har归档文件(将多个小文件打包成后缀为.har的文件)
2.采用CombineTextInputFormat(将多个小文件逻辑规划到一个切片中)
3.自己设计一个MR程序将多个小文件合并成一个大文件,如果是hive或者spark,自带merge功能
4.开启JVM重用
如果没有小文件,不要开启JVM重用,因为会一直占用使用到的Task卡槽,直到任务完成才释放。
JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间
<property>
<name>mapreduce.job.jvm.numtasks</name>
<value>10</value>
<description>How many tasks to run per jvm,if set to -1 ,there is no limit</description>
</property>