MapReduce小文件问题
(1).小文件处理的弊端
1.每个小文件都要执行一次map任务,增加map任务的开销.
2.小文件太多,会耗费很多时间去寻址.
3.需要记录小文件的元数据,造成namenode的内存浪费.
(2)解决办法
1.尽量避免出现小文件,将多个小文件合并成一个顺序文件,文件名作为键,文件内容作为值.
2.如果HDFS中出现了大批小文件,CombineFileInputFormat将多个小文件打包到一个分片中.
3.使用Hadoop自带的archive工具,主要减少namenode的负载.