MapReduce 运行流程概括
MapTask任务数量的决定因素
每一个split分配一个mapTask并行实例处理
切片实现
- 由FileInputFormat实现类的getSplits()方法实现切片
- 默认切片大小就是Block块大小(默认块大小128M)
在FileInputFormat中,计算切片大小的逻辑代码为:
Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默认值:1
配置参数: mapreduce.input.fileinputformat.split.minsize
maxsize:默认值:Long.MAXValue
配置参数:mapreduce.input.fileinputformat.split.maxsize