300字看懂的MapReduce原理

最新推荐文章于 2024-04-19 04:39:57 发布

Handoking

最新推荐文章于 2024-04-19 04:39:57 发布

阅读量465

点赞数

分类专栏：大数据进阶中文章标签：大数据 MapReduce

本文链接：https://blog.csdn.net/Handoking/article/details/81059566

版权

大数据进阶中同时被 2 个专栏收录

24 篇文章 12 订阅

订阅专栏

大数据

23 篇文章 5 订阅

订阅专栏

声明：本博文图片均出自网络，若侵权联系我删。

先上图。
这里写图片描述

这里写图片描述

作为hadoop的核心模块，首先切入点为mapreduce。
可以看出在MapReduce的执行过程分为两个任务一部分是map task 一部分是reduce task。，Inputformat函数主要的功能有两个第一个是数据切分，按照用户编写的MapReduce函数中的切分策略进行将数据进行切分，切成若干个split。第二个功能是将输入到map的数据进行key/value对分离。每个split都有一个map task处理，也就是说split的个数决定了map task的个数。map（）函数处理完后，对数据进行partition,partition的数目是由reduce task 的个数决定的。这些数据都被存入到本地磁盘中，接下来将被reduce task来处理。
Reduce task大致分为三个阶段。
第一个阶段（shuffle）：从远程节点上读取map task 的数据。Map task 的中间数据不是已经存储在本地磁盘了吗，为什么还要从远程节点读取数据？这是因为inputsplit切分时后，可能导致一个大文件对应的block对应整个hadoop集群，我们不能吧所有的数据都能进行本地化，所以总有一些节点来自于远程节点。其实为了更好的实现数据本地化，在切分时一般使split和block大小相同。
第二阶段：按照map task中间结果的key对key/value对进行conbine与sort。
第三阶段：调用reduce()来进行处理，处理后的结果最终保存在HDFS中。