MapReduce之Job提交流程

1. 准备阶段

运行Job.waitForCompletion(),先使用JobSubmitter提交Job,在提交之前,会在Job的作业目录中生成以下文件:
job.split:当前Job的切片信息,有几个切片对象
job.splitmetainfo:切片对象的属性信息
job.xml:job所有的属性配置

2. 提交阶段

本地模式
LocalJobRunner进行提交,如果是HDFS,使用了yarn,则是YARNJobRunner
创建一个LocalJobRunner.Job()
job启动:Job.start()

Map阶段

  • 采用线程池提交多个MapTaskRunable线程
  • 每个MapTaskRunable线程上,实例化一个MapTask对象
  • 每个MapTask对象,最终实例化一个Mapper
  • Mapper.run()
  • 线程运行结束,会在线程的作业目录中生成 file.out文件,保存MapTask输出的所有的key-value

MapTaskRunable------>MapTask--------->Mapper--------->Mapper.run()------->Mapper.map()

阶段定义
如果有ReduceTask,MapTask运行期间,分为 map(67%)—sort(33%) 两部分
如果没有ReduceTask,MapTask运行期间,只有map(100%)
map: 使用RecordReader将切片中的数据读入到Mapper.map(),直至写出:context.write(key,value)

Reduce阶段

  • 采用线程池提交多个ReduceTaskRunable线程
  • 每个ReduceTaskRunable线程上,实例化一个ReduceTask对象
  • 每个ReduceTask对象,实例化一个Reducer
  • reducer.run()
  • 线程运行结束,会在输出目录中生成part-r-000x文件,保存ReduceTask输出的所有的key-value,即最后结果

ReduceTaskRunable------->ReduceTask------>Reducer----->Reducer.run()------>Reducer.reduce()

阶段定义

  • copy:使用shuffle线程拷贝MapTask指定分区的数据
  • sort:将拷贝的所有的分区的数据汇总后,排序
  • reduce:对排好序的数据,进行合并
  • Shuffle的含义为洗牌,将Map阶段写出的数据,进行洗牌(将数据整理的有序,方便Reducer进行reduce)!
    Shuffle阶段横跨MapTask和RedcueTask,在MapTask端也有Shuffle,在RedcueTask也有Shuffle!
    具体Shuffle阶段指MapTask的map之后到RedcuceTask的reduce之前!

在这里插入图片描述

YARN上运行
在提交Job后,创建MRAppMaster进程!

由MRAppMaster,和RM申请,申请启动多个MapTask,多个ReduceTask

Container------>MapTask--------->Mapper--------->Mapper.run()------->Mapper.map()
Container------->ReduceTask------>Reducer----->Reducer.run()------>Reducer.reduce()

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孙晨c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值