Map的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了
map的个数。
影响map个数,即split个数的因素主要有:
影响map个数,即split个数的因素主要有:
- HDFS块的大小,即HDFS中dfs.block.size的值。默认为128M
- 文件的大小。
- 文件的个数。FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。
- splitsize的大小。分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,默认等hdfsblock的大小,但应用程序可以通过两个参数来对splitsize进行调节。