Hadoop技术内幕之MapReduce作业的生命周期

最新推荐文章于 2020-06-14 16:27:53 发布

owen1190

最新推荐文章于 2020-06-14 16:27:53 发布

阅读量545

点赞数 1

分类专栏：笔记-Hadoop 文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/owen1190/article/details/52437887

版权

笔记-Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Hadoop MapReduce 作业的生命周期，即作业从提交到运行结束经历的整个过程。

用户编写了一个 MapReduce 程序，并将其打包成 xxx.jar 文件，然后使用以下命
令提交作业：

$HADOOP_HOME/bin/hadoop jar xxx.jar \
-D mapred.job.name="xxx" \
-D mapred.map.tasks=3 \
-D mapred.reduce.tasks=2 \
-D input=/test/input \
-D output=/test/output

作业过程分为以下5个步骤：

作业提交与初始化。
首先由 JobClient 实例将作业相关信息，比如将程序 jar 包、作业配置文件、分片元信息文件（记录了每个输入分片的逻辑位置信息）等上传到分布式文件系统（一般为HDFS）上。然后 JobClient通过 RPC 通知 JobTracker。JobTracker 收到新作业提交请求后，由作业调度模块对作业进行初始化：为作业创建一个 JobInProgress 对象以跟踪作业运行状况，而 JobInProgress 则会为每个 Task 创建一个 TaskInProgress 对象以跟踪每个任务的运行状态。TaskInProgress 可能需要管理多个“Task 运行尝试” （称为“Task Attempt” ）。
任务调度与监控。
TaskTracker 周期性地通过 Heartbeat 向 JobTracker 汇报本节点的资源使用情况，一旦出现空闲资源， JobTracker 会按照一定的策略选择一个合适的任务使用该空闲资源，由任务调度器完成。任务调度器首先选择作业，然后从该作业中选择任务。同时JobTracker 跟踪作业的整个运行过程，并为作业的成功运行提供全方位的保障。首先，当 TaskTracker 或者Task 失败时，转移计算任务；其次，当某个 Task 执行进度远落后于同一作业的其他 Task 时，为之启动一个相同 Task，并选取计算快的Task 结果作为最终结果。
任务运行环境准备。
运行环境准备包括 JVM 启动和资源隔离，均由TaskTracker 实现。TaskTracker 为每个 Task 启动一个独立的 JVM 以避免不同 Task 在运行过程中相互影响；同时， TaskTracker 使用了操作系统进程实现资源隔离以防止 Task 滥用资源。
任务执行。
TaskTracker 为 Task 准备好运行环境后，便会启动 Task。在运行过程中，每个 Task 的最新进度首先由 Task 通过 RPC 汇报给 TaskTracker，再由 TaskTracker汇报给 JobTracker。
作业完成
待所有 Task 执行完毕后，整个作业执行成功。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop技术内幕之MapReduce作业的生命周期

Hadoop MapReduce 作业的生命周期，即作业从提交到运行结束经历的整个过程。用户编写了一个 MapReduce 程序，并将其打包成 xxx.jar 文件，然后使用以下命令提交作业：$HADOOP_HOME/bin/hadoop jar xxx.jar \-D mapred.job.name="xxx" \-D mapred.map.tasks=3 \-D mapred.r
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。