MapReduce在Yarn上的运行流程

最新推荐文章于 2022-01-06 18:27:18 发布

宣宣啊

最新推荐文章于 2022-01-06 18:27:18 发布

阅读量1k

点赞数

文章标签： mapreduce hadoop

本文链接：https://blog.csdn.net/huihuisd/article/details/106064890

版权

MapReduce程序在Yarn上运行，客户端首先进行数据切片并提交任务。Yarn的Resource Manager分配资源，启动APPMaster，APPMaster负责任务分配和监控。Map Task和Reduce Task在Node Manager的容器中执行。shuffle过程包括map输出数据的分区、排序、溢写，以及reduce端的合并排序。最终，reduce任务聚合数据并进行计算。

摘要由CSDN通过智能技术生成

运行示意图：

MapReduce程序是在Yarn上运行的，job任务还没提交到集群之前，客户端要先进行切片，默认是按照128M来切片。切片的信息会序列化成一个文件到hdfs上。接下来客户端将任务提交给了yarn集群，想让yarn集群来运行。Yarn集群又由Resource Manager和Node Manager做成，Resource Manager是管理者，Node Manager是真正要运行任务的节点。yarn接受到了客户端的请求，会要求在某个Node Manager上开辟一个容器，启动APPMaster。

这APPMaster也是个管理者，它不干活，它是分配任务，监控任务，申请资源。APPMaster申请到资源后就会通知Node Manager启动所有需要的任务。Node Manager会创建容器来运行Map Task 和 Reduce Task。各个任务会向AppMaster汇报自己的执行进度和执行状况，任务全执行完毕后APPMaster会向Resource Manager注销自己。