mapreduce 的并行度机制
并行度机制是:maptask reducetask 个数决定机制。多个task一起运行即为并行。
maptask 并行度机制:逻辑规划 、逻辑切片。
逻辑切片发生的时间:
在java代码中,程序在未提交之前,都是在驱动类的main方法中执行,提交之后会在本地环境或者yarn中执行。
如果在提交以后进行切片,程序提交完紧接着就是执行maptask,来不及进行切片。
所以这个逻辑切片应该在客户端驱动类提交(job.submit())作业(job)前,进行。
逻辑切片发生的地点:
未提交,所以在驱动类的main方法中进行
逻辑切片中的参与者:
首先是需要处理的目标,即输入的目录:例如:FileInputformat.setIntputPaths(job,new Path(xxx))
然后是读数据的组件,TextInputFormat的父类FileInputFormat.getSplits()
逻辑切片中的规则:
对待处理目录文件