MapReduce的工作机制

最新推荐文章于 2024-07-01 09:44:52 发布

njufighter

最新推荐文章于 2024-07-01 09:44:52 发布

阅读量586

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/njufighter/article/details/9018531

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MapReduce的工作机制

（1） Job的提交：jobClient的RunJob可以新建JobClient实例，并调用SubmitJob()。

SubmitJob()实现的作业提交过程：

a. 向jobtracker请求一个新的JobID

b. 检查Job的输出说明

c. 计算Job的输入分片

d. 将运行Job所需要的资源（包括作业JAR文件，配置文件和计算所得的输入分片）复制到位于共享文件系统（HDFS）中一个以Job ID命名的目录

e. 告知jobtracker 作业准备执行

（2） Job的初始化

当JobTracker接收到SubmitJob的调用，会将此调用放入一个内部队列中，交由Job调度器进行调度，并对其初始化（创建一个表示正在运行的对象，用于封装任务和记录信息，以便跟踪任务的状态）。

Job调度器从共享文件系统中获取JobClient已计算好的输入分片信息，为每一个分片创建一个Map任务。

创建Reduce任务的数量由JobConf的mapred.reduce.task属性决定，它是用setNumReduce Tasks()方法来设置，然后调度器创建相应数量的要运行的Reduce任务。

（3） Task的分配

Heartbeat用于充当Jobtracker与TaskTracker之间的消息通道。Tasktracker将说明其是否准备好运行新的任务，如果是，JobTracker会为它分配一个任务，并使用“心跳”的返回值与TaskTracker进行通信。

为了选择一个Reduce任务，JobTracker简单从待运行的Reduce任务列表中选取下一个来执行，用不着考虑数据的本地化。

而对于Map任务，JobTracker会考虑数据本地化。

对于map和reduce任务，tasktracker有固定数量的任务槽。默认调度器在处理reduce任务槽之前，会填满空闲的map任务槽，再考虑reduce.也就是Map任务优先于Reduce任务。

（4） Task的执行

a. 通过共享文件系统把Job的JAR文件复制到tasktracker所在的文件系统，实现JAR文件本地化，并将应用程序所需要的全部文件从分布式缓存复制到本地磁盘

b. 为Task建立一个新的目录，并将JAR解压到该文件夹下

c. 新建一个TaskRunner实例来运行该任务。TaskRunner启动一个新的JVM来运行每个任务

（5） Job的完成

JobTracker将Job的状态设置成“成功”，并发送HTTP作业通知。最后清空Job的工作状态，并指示TaskTracker也清空Job的工作状态

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的工作机制

MapReduce的工作机制（1） Job的提交：jobClient的RunJob可以新建JobClient实例，并调用SubmitJob()。SubmitJob()实现的作业提交过程：a. 向jobtracker请求一个新的JobIDb. 检查Job的输出说明c. 计算Job的输入分片d. 将
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。