MapReduce在Yarn上的运行流程

MapReduce程序在Yarn上运行,客户端首先进行数据切片并提交任务。Yarn的Resource Manager分配资源,启动APPMaster,APPMaster负责任务分配和监控。Map Task和Reduce Task在Node Manager的容器中执行。shuffle过程包括map输出数据的分区、排序、溢写,以及reduce端的合并排序。最终,reduce任务聚合数据并进行计算。
摘要由CSDN通过智能技术生成

运行示意图:

MapReduce程序是在Yarn上运行的,job任务还没提交到集群之前,客户端要先进行切片,默认是按照128M来切片。切片的信息会序列化成一个文件到hdfs上。接下来客户端将任务提交给了yarn集群,想让yarn集群来运行。Yarn集群又由Resource Manager和Node Manager做成,Resource Manager是管理者,Node Manager是真正要运行任务的节点。yarn接受到了客户端的请求,会要求在某个Node Manager上开辟一个容器,启动APPMaster。

这APPMaster也是个管理者,它不干活,它是分配任务,监控任务,申请资源。APPMaster申请到资源后就会通知Node Manager启动所有需要的任务。Node Manager会创建容器来运行Map Task 和 Reduce Task。各个任务会向AppMaster汇报自己的执行进度和执行状况,任务全执行完毕后APPMaster会向Resource Manager注销自己。

MapReduce工作流程:

这里值得注意的概念是shuffle过程,shuffle过程是从map输出数据开始,到reduce真正接收到要聚合的数据时。这个过程都叫shuffle过程,就是图中黄色的部分。

map处理完数据就会送到缓冲区&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值