spark读取hdfs文件时,会将一个分片作为一个分区,使用一个task进行调度,如果文件不足128M,也会作为一个分区
当小文件很多的时候,如果用默认的InputFormat效率会很低,此时我们可以采用CombineFileInputFormat,它会首先合并小文件,然后再交给task进行调度。
spark读取hdfs文件时,会将一个分片作为一个分区,使用一个task进行调度,如果文件不足128M,也会作为一个分区
当小文件很多的时候,如果用默认的InputFormat效率会很低,此时我们可以采用CombineFileInputFormat,它会首先合并小文件,然后再交给task进行调度。