MapReduce MapTask任务数量,切片大小笔记

MapReduce 运行流程概括

MapReducer 运行流程概括图

MapTask任务数量的决定因素

每一个split分配一个mapTask并行实例处理

切片实现

  • 由FileInputFormat实现类的getSplits()方法实现切片
  • 默认切片大小就是Block块大小(默认块大小128M)
在FileInputFormat中,计算切片大小的逻辑代码为:
Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默认值:1  
    配置参数: mapreduce.input.fileinputformat.split.minsize    
maxsize:默认值:Long.MAXValue  
    配置参数:mapreduce.input.fileinputformat.split.maxsize
相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页