MapReduce的流程（带图有详解）

最新推荐文章于 2023-10-24 14:48:30 发布

清酒暖心①

最新推荐文章于 2023-10-24 14:48:30 发布

阅读量484

点赞数

分类专栏：大数据文章标签： mapreduce

本文链接：https://blog.csdn.net/weixin_43146162/article/details/108608814

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

客户端Client提交一个作业，先提交给YARN集群，YARN集群接收到客户端Client的请求之后，知道客户端要去执行一个作业\要去处理某一个数据，然后它先去检查客户端有没有这个权限去提交这个作业，然后ResourceManager和NameNode进行通信，告诉NameNode有一个客户端想要去执行一个程序\去处理某一个数据，让NameNode让HDFS集群去检查一下要处理的这个文件是否在集群中，如果这个文件在的话，那么就正常开始执行。
在YARN集群里面，ResourceManager随机的从众多的NodeManager中选出一个NodeManager来，在这个NodeManager上面它会启动一个进程（AppMaster），此时这个NodeManager有一个新的身份：ApplicationMaster，它主要进行作业调度；而ResourceManager主要做的是资源调度（去分析客户端提交的这个作业需要几个map任务、需要几个reduce任务、每个map任务根据它所执行的数据应该分配多大的内存、应该分配多少CPU）；
如图，有四个数据块，也就是说，ResourceManager应该分配出来4个NodeManager来执行map任务；假设ResourceManager有分配了2个NodeManager去执行reduce任务（假设在程序里设置了reduce个数为2），到这里，资源就分配好了。接下来把所有的权限都交给AppMaster，由它来分配这个NodeManager执行map任务时去读取哪些数据，然后这四个map任务去读取四个数据块里的数据，开始处理。处理的过程中AppMaster也会告诉这四个NodeManager你们要执行的map的作业在什么地方。处理之后得到一个中间的临时结果在本地的主机上，在得到中间结果之前有一步叫分区，对数据进行分区来决定数据进入哪个reduce，分区之后形成各自的中间的临时结果，当所有的map任务都执行完成之后，AppMaster会调用执行reduce的节点去执行reduce任务，并且告诉这些节点它所要执行的reduce任务的reduce类应该在哪儿，并且告诉这些reduce你应该从那些执行map任务的节点上读数据。此时reduce开始读数据（远程，跨网络），读到数据之后，从不同的节点上读取自己所需要的数据，读到之后在自己的节点上进行分组（key值相同的分为一组）和排序（根据key值进行排序，决定哪一组先执行），reduce处理完成之后形成最终的输出，把它保存到HDFS集群上。（分区（map端）、分组（reduce端）、排序（reduce端）合称为shuffer）
AppMaster作业调度，执行map任务的节点在执行过程中可能宕机，宕机之后，AppMaster从众多的NodeManager中再寻找一个，把这个map任务宕机后要执行的所有任务都交给新找到的的NodeManager
注意：分区不止一个文件，一般把要进入同一个reduce的数据分到同一个或多个文件中

清酒暖心①

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的流程（带图有详解）

客户端Client提交一个作业，先提交给YARN集群，YARN集群接收到客户端Client的请求之后，知道客户端要去执行一个作业\要去处理某一个数据，然后它先去检查客户端有没有这个权限去提交这个作业，然后ResourceManager和NameNode进行通信，告诉NameNode有一个客户端想要去执行一个程序\去处理某一个数据，让NameNode让HDFS集群去检查一下要处理的这个文件是否在集群中，如果这个文件在的话，那么就正常开始执行。在YARN集群里面，ResourceManager随机的从众多..
复制链接

扫一扫