Map的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了
map的个数。
影响map个数,即split个数的因素主要有:
影响map个数,即split个数的因素主要有:
- HDFS块的大小,即HDFS中dfs.block.size的值。默认为128M
- 文件的大小。
- 文件的个数。FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。
- splitsize的大小。分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,默认等hdfsblock的大小,但应用程序可以通过两个参数来对splitsize进行调节。

MapReduce中Map任务的数量取决于HDFS块大小、文件大小和文件个数,而Reduce任务的数量可通过自定义Partitioner调整。理想的配置是Map和Reduce任务数相等以实现资源充分利用和负载均衡。然而,当Reduce任务数小于Map任务数时,部分Reduce将不会工作;反之,如果Reduce任务数过多,则会造成资源浪费。
最低0.47元/天 解锁文章
1155

被折叠的 条评论
为什么被折叠?



