一:block是物理上的数据分割,split是逻辑上的数据分割。
二: 用户可自定义split size。
三:一个split不会包含零星点几或者几点几个block,一定是包含大于等于一个个整数个block。
四:一个split不会包含两个file的block,不会跨越file边界。
五:split和block是一对多的关系。
六:maptasks的个数最终决定于splits的长度。
举例:
File 1:Block1,Block2,Block3,Block4,Block5
File 2:Block6,Block7,Block8
分成3个split:
Split 1:Block1,Block2,Block3,Block4
Split 2:Block5
Split 3:Block6,Block7,Block8