HDFS中小文件是指文件size小于HDFS上block大小的文件。大量的小文件会hadoop的扩展性和性能带来严重的影响。 小文件是如何产生的? 动态分区插入数据,产生大量的小文件,从而导致map数量剧增 reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致