MapReduce详细工作流程

水花一直飞

已于 2022-05-11 20:45:54 修改

阅读量3.6k

点赞数 4

于 2022-04-28 18:20:32 首次发布

本文链接：https://blog.csdn.net/m0_67991849/article/details/124479335

版权

大数据同时被 3 个专栏收录

18 篇文章 1 订阅

订阅专栏

hadoop

10 篇文章 0 订阅

订阅专栏

mapreduce

6 篇文章 0 订阅

订阅专栏

MapReduce工作流程

第一部分详细说明
第二部分详细说明

第一部分详细说明

在这里插入图片描述

MapReduce默认输入处理类是FileInputFormat
------InputFormat源码链接
1.文本job提交
------Job源码链接
2.FileInputFormat按照块大小（128m）进行切片
------切片源码链接
3.切片信息，jar包（Job提交到集群运行时），配置信息上传到HDFS上，将任务提交到ResourceManager
4.ResourceManager启动AppMaster，AppMaster收到数据找ResourceManager申请资源，ResourceManager会分配两个Container，两个MapTask分别在Container中运行
5.默认的InputFormat>>TextInputFormat重写的RecordReader会返回一个LineRecordReader对象，它会一行一行的读取数据（读取到Mapper的map方法）>>我们写的Mapper方法就是继承自这个Mapper方法然后重写map类来自定义输出context的key和value值
6.map方法进行逻辑运算后将输出值输出到outputCollector中
7.数据会根据你设置的ReduceTask值来进行分区
------分区源码链接
8.分区后的数据进入环形缓冲区（默认是100m）
------环形缓冲区源码链接
9.分区，排序（快排）
10.排序后数据被写到磁盘上（被分区且分区内有序）
11.Merge归并排序
12.combiner可以根据实际情况在设置后使用（继承Reduce方法与Reducer用法相同）

在这里插入图片描述

第二部分详细说明

1.流程图上的是两个分区，所以分配了两个ReduceTask，两个MapTask中相同的分区会进入到同一个ReduceTask中，进入ReduceTask中的数据会先往内存中存储，若内存不够则往磁盘中存储
2.数据再次进行归并排序
3.相同key值的数据为一组写入到Reducer中>>我们自定义的Reducer方法继承Reducer并重写了reduce方法
4.与开头的InputFormat类似，数据输出走的是OutputFormat的默认输出子类TextOutputFormat中重写的RecordWriter方法中返回的LineRecordWrite对象一行一行的输出数据
5.数据输出到集群或本地两个块