【MapReduce】MapReduce工作机制

最新推荐文章于 2024-08-10 16:30:06 发布

卜塔

最新推荐文章于 2024-08-10 16:30:06 发布

阅读量536

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nextaction/article/details/104230273

版权

Hadoop 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

一个mapreduce作业，一般分为两阶段执行：map阶段和reduce阶段，下面分别对这两阶段进行介绍。

Map阶段

在这里插入图片描述

Map阶段又分为五部分：读取文件阶段，MapTask阶段，collect阶段，溢写阶段，combine阶段。
首先客户端把待处理文件分片信息、jar包信息、参数信息等提交到HDFS。然后Yarn集群接受任务，启动AppMaster把任务分配NodeManager，并由NodeManager执行MapTask任务。从上图的第6步开始，进入读取文件阶段。

读取文件阶段
MapTask通过用户编写的RecordReader，从输入的分片中解析出一个个的k-v对；
MapTask阶段
每个k-v对调用一次map()函数，输出新的k-v对；
Collect阶段
MapTask阶段输出的k-v对会先进入环形缓冲区，默认内存大小为100M。在环形缓冲区中，数据进行分区、排序等；
溢写阶段
当环形缓冲区写满80%，数据从内存溢写到hdfs，持续多轮以后会产生多个溢写文件。溢写之前，数据会先按分区，再按key排序；
Combine阶段
当MapTask结束时，多个溢写文件会被合并成一个大的文件。Combine可以把文件中的k-v对数据排列的更紧密一些，减少网络传输I/O。

Reduce阶段

在这里插入图片描述

Reduce阶段分为四部分：Copy阶段、Merge阶段、sort阶段、Reduce阶段

Copy阶段
ReduceTask从各个MapTask上远程拷贝一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中；
Merge阶段
远程拷贝文件的同时，ReduceTask启动两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多；
sort阶段
为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现了对自己处理结果的局部排序，此步中只需对所有数据进行一次归并排序；
Reduce阶段
以上步骤处理后的数据调用reduce()函数，每个k-v调用一次。最后把输出文件写到HDFS中。

以上就是对MapReduce工作机制的简单说明，如有错误的地方，还望指正。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄8年

318
原创

208
点赞

783
收藏

133
粉丝

关注

私信

热门文章

分类专栏

IDEA 1篇
Oracle 77篇
PL/SQL 14篇
SQL 30篇
PostgreSQL 29篇
MySQL 4篇
Python 36篇
Shell 5篇
Java 2篇
Kettle 9篇
Hadoop 16篇
Hive 23篇
HBase 2篇
Flume 2篇
Spark 6篇
Kafka 7篇
Sqoop 2篇
Flink
Linux 26篇
数据仓库 6篇
数据分析 5篇
Excel 8篇
Maven 1篇
C 1篇
汇编语言 1篇

最新评论

【Hive】自定义函数从编写到应用的整个流程（以UDF为例）
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Hive】自定义函数从编写到应用的整个流程（以UDF为例）
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【SQL】SQL语句执行顺序
Greyscarf: ，我记得是 form On .join where.....
【SQL】SQL语句执行顺序
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
【Python3】复制、移动、删除文件及文件夹
Molliojing: 原来复制文件和复制文件夹是不一样的，受教了！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。