1.block是物理上的数据分割,而split是逻辑上的分割。
2.如果没有特别指定,split size 就等于 HDFS 的 block size 。
3.用户可以在M/R 程序中自定义split size。
4.一个split 可以包含多个blocks,也可以把一个block应用多个split操作。
5.有多少个split,就有多少个mapper。
1.block是物理上的数据分割,而split是逻辑上的分割。
2.如果没有特别指定,split size 就等于 HDFS 的 block size 。
3.用户可以在M/R 程序中自定义split size。
4.一个split 可以包含多个blocks,也可以把一个block应用多个split操作。
5.有多少个split,就有多少个mapper。