MapReduce工作原理流程图文详解(MapTask过程、Shuffle过程、ReduceTask过程)

本文详细介绍了MapReduce的工作流程,包括MapTask、Shuffle和ReduceTask阶段。MapTask阶段涉及数据读取、Mapper处理、环形缓冲区排序及溢写。Shuffle阶段包括数据归并排序和ReduceTask的数据拷贝。ReduceTask阶段则是数据再排序、Reducer聚合处理及最终输出。缓冲区大小对执行效率有直接影响,可通过参数调整。
摘要由CSDN通过智能技术生成

工作流程一:
在这里插入图片描述
工作流程二:
在这里插入图片描述
一个完整的mapreduce程序在分布式运行时有三类实例进程:
1)MrAppMaster:负责整个程序的过程调度及状态协调
2)MapTask:负责map阶段的整个数据处理流程
3)ReduceTask:负责reduce阶段的整个数据处理流程

工作全流程详解:
上面图一和图二中的流程是整个MapReduce最全工作流程,主要包括MapTask阶段、Shuffle阶段和ReduceTask阶段,而Shuffle阶段和MapTask阶段、ReduceTask阶段都存在交集,具体流程如下:

  1. 准备好待处理的文本
  2. 客户端submit()前,获取待处理数据的信息,然后根据参数配置形成一个任务分配的规划
  3. 客户端向Yarn集群提出请求创建Mr appmaster并提交切片等相关信息:job.split、wc.jar(集群模式才需要)、job.xml
  4. Yarn调用ResourceManager来创建Mr appmaster,而Mr appmaster则会根据切片的个数来创建几个Map Task。于是,MapTask进程开始工作。
  5. MapTask们
  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值