MapReduce之Job提交流程

最新推荐文章于 2022-04-24 19:06:02 发布

孙晨c

最新推荐文章于 2022-04-24 19:06:02 发布

阅读量447

点赞数

分类专栏： Hadoop 文章标签： mapreduce 大数据 hadoop

本文链接：https://blog.csdn.net/DTFT_/article/details/107420229

版权

Hadoop 专栏收录该内容

53 篇文章 1 订阅

订阅专栏

文章目录

- 1. 准备阶段
- 2. 提交阶段

1. 准备阶段

运行Job.waitForCompletion()，先使用JobSubmitter提交Job，在提交之前，会在Job的作业目录中生成以下文件：
job.split：当前Job的切片信息，有几个切片对象
job.splitmetainfo：切片对象的属性信息
job.xml：job所有的属性配置

2. 提交阶段

本地模式
LocalJobRunner进行提交，如果是HDFS，使用了yarn，则是YARNJobRunner
创建一个LocalJobRunner.Job()
job启动：Job.start()

Map阶段

采用线程池提交多个MapTaskRunable线程
每个MapTaskRunable线程上，实例化一个MapTask对象
每个MapTask对象，最终实例化一个Mapper
Mapper.run()
线程运行结束，会在线程的作业目录中生成 file.out文件，保存MapTask输出的所有的key-value

MapTaskRunable------>MapTask--------->Mapper--------->Mapper.run()------->Mapper.map()

阶段定义
如果有ReduceTask，MapTask运行期间，分为 map(67%)—sort(33%) 两部分
如果没有ReduceTask，MapTask运行期间，只有map(100%)
map: 使用RecordReader将切片中的数据读入到Mapper.map()，直至写出：context.write(key,value)

Reduce阶段

采用线程池提交多个ReduceTaskRunable线程
每个ReduceTaskRunable线程上，实例化一个ReduceTask对象
每个ReduceTask对象，实例化一个Reducer
reducer.run()
线程运行结束，会在输出目录中生成part-r-000x文件，保存ReduceTask输出的所有的key-value，即最后结果

ReduceTaskRunable------->ReduceTask------>Reducer----->Reducer.run()------>Reducer.reduce()

阶段定义

copy：使用shuffle线程拷贝MapTask指定分区的数据
sort：将拷贝的所有的分区的数据汇总后，排序
reduce：对排好序的数据，进行合并
Shuffle的含义为洗牌，将Map阶段写出的数据，进行洗牌(将数据整理的有序，方便Reducer进行reduce)！
Shuffle阶段横跨MapTask和RedcueTask，在MapTask端也有Shuffle，在RedcueTask也有Shuffle！
具体Shuffle阶段指MapTask的map之后到RedcuceTask的reduce之前！

在这里插入图片描述

YARN上运行
在提交Job后，创建MRAppMaster进程！

由MRAppMaster，和RM申请，申请启动多个MapTask,多个ReduceTask

Container------>MapTask--------->Mapper--------->Mapper.run()------->Mapper.map()
Container------->ReduceTask------>Reducer----->Reducer.run()------>Reducer.reduce()

孙晨c

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
MapReduce之Job提交流程

文章目录1. 准备阶段2. 提交阶段1. 准备阶段运行Job.waitForCompletion()，先使用JobSubmitter提交Job，在提交之前，会在Job的作业目录中生成以下文件：job.split：当前Job的切片信息，有几个切片对象job.splitmetainfo：切片对象的属性信息job.xml：job所有的属性配置2. 提交阶段本地模式：LocalJobRunner进行提交，如果是HDFS，使用了yarn，则是YARNJobRunner创建一个LocalJobRunn
复制链接

扫一扫