8.MapReduce Scheduling

最新推荐文章于 2025-12-02 12:23:27 发布

转载最新推荐文章于 2025-12-02 12:23:27 发布 · 92 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://blog.51cto.com/8866370/2427929

文章标签：

#运维 #大数据

本文详细介绍了MapReduce的工作原理，包括Map和Reduce任务的并行执行、数据的shuffle过程，以及YARN资源调度机制。揭示了MapReduce如何通过partition、sort和combine操作优化数据处理，同时阐述了YARN如何管理和分配集群资源。

Scheduler

并行Map任务
- splitting and sharding data
- Map任务相互独立
将数据从Map传输到Reduce
- 相同key的Map输出会分配给同一个Reduce任务
- 利用了partition函数，比如hash(key) % number_of_reducers
并行Reduce任务
- Reduce任务相互独立
实现存储
- 数据通常会有三个副本位于三个不同的服务器上
- Map Input: 来自分布式文件系统
- Map Output: Map节点的本地磁盘(本地文件系统)
- 中间数据对外部用户不可见，也不必写到分布式文件系统上
- Reduce Input: 远程磁盘(本地文件系统)
- Reduce Output: 分布式文件系统

理论上，Reduce阶段只能在所有Map阶段结束之后启动(未结束的Map任务可能产生新的key/value对，对应该key的Reduce任务需要等待Map完成)。这种两个阶段之间的隔离操作叫做barrier。

事实上部分Reduce任务是可以提早开始的。MapReduce中也是这样实现的。但是这种操作不利于我们理解MapReduce范式，所以我们先忽略这件事。

Barrier不成立的原因之一，是在Map阶段和Reduce阶段之间存在Shuffle阶段。Shuffle可以和Map并行执行。

PS.推荐两篇文章《MapReduce:详解Shuffle过程》《MapReduce的shuffle过程详解（分片、分区、合并、归并）》，对这段shuffle的梳理实在是妙。大致解释一下： 
Map任务的结果不会立刻写入磁盘，而是写到一个叫环形内存缓冲区的地方（这个操作叫spill）。spill的时候，会根据key进行分区(partition)。缓冲区默认最大是100M，当写入达到阈值(默认是80%)的时候，会启动一个线程将缓冲区文件写到磁盘临时文件。而这个线程会执行一个排序(sort)和一个合并(combine)操作。整个spill执行完之后，会对所有临时文件进行归并(merge)。merge时会继续进行sort和combine来减少最终输出大小。 
上面这段流程就是map端的shuffle操作，里面的combine是可选的，部分情况下其实执行的是reduce。

8.MapReduce Scheduling

所以，spill时首先进行partition，然后partition内sort、combine，最后写出到磁盘。而combine可以是reduce，所以Map和Reduce之间不存在Barrier。

YARN

YARN = Yet Another Resource Negotiator. YARN是从Hadoop 2.x 开始引入的资源调度器。

YARN将每个服务器看成一组容器(container)。Container = some CPU + some memory。每个容器可以执行一个任务

如果服务器有4个CPU和4GB内存，而每个容器中有一个CPU和1GB的RAM。那么这个服务器有4个容器，可以运行四个任务。

YARN有三个主要部分：

Resource Manager 资源管理器 RM
- Resource Manager是全局进程
- 负责调度
Node Manager 节点管理器 NM
- Node Manager在每个server都有一个
- 作为守护进程和运行特定服务器进程（比如，任务监控）
Application Master 应用管理AM
- 应用级别 per-application(job)
- 负责container与Resource Manager、Node Manager之间协商通信
- 与Node Manager通信，检测任务挂起和重新调度

`YARN`分配`container`

8.MapReduce Scheduling

两台服务器A、B：每个服务器有一个Node Manager在运行 
两个任务1、2：每个任务有一个Application Master 
全局有一个Resource Manager在运行

Timeline:

sequence	environment	action
0	开始时，`Job2(App2)`刚刚运行结束，`Job1(App1)`即将启动	N/A
1	`Job1(App1)`即将启动	`Application Master1(AM_1)`通知`Resource Manager(RM)` <`App1`即将启动，需要分配一个`container`>
2	`RM`收到`AM_1`的消息，但无可分配的`container`	`RM`将`AM_1`消息放入队列挂起，随后`Node Manager B(NM_B)`向`RM`发送消息 <`container`空闲>
3	`RM`收到`NM_2`的消息	`RM`通知`AM_1`, `node B`有空闲`container`
4	`AM_1`收到`RM`消息	`AM_1`通知`NM_B`执行`Job1`