HDFS小文件的影响 影响NameNode的寿命,因为每个文件元数据存储在NameNode的内存中影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务 数据输入小文件处理 合并小文件:对小文件进行归档(Har)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景对于大量小文件job,可以开启JVM重用 (四处整理的)