简单理解MapReduce

最新推荐文章于 2024-07-20 10:23:02 发布

关键校验

最新推荐文章于 2024-07-20 10:23:02 发布

阅读量1.7k

点赞数 17

文章标签： mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63130425/article/details/138442052

版权

MapReduce

概述

Map Reduce是Hadoop提供的一套用于分布式计算的模型。Map Reduce由两阶段组成，Map（映射）阶段和Reduce（规约）阶段。

特点

1，MapReduce易于编程：用户只需要简单实现MapReduce提供的一些接口，就可以完成一个分布式程序。

2，具有良好的扩展性：当前集群的就算资源不能得到满足时，可以通过简单增加机器来扩展他的计算能力。

3，高容错性：Map Reduce设计初衷就是使程序能部署在廉价的PC机器上，这就要求它具有很高的容错性。

4，适合PB级别以上海量数据的离线处理：可以实现上千台服务器集群并发工作，提供数据处理能力。

5，不擅长实时计算：Map Reduce的运行速度相对较低。

6，不擅长流式计算：Map Reduce自身设计特点决定数据源必须时静态的。

7，不擅长DAG（有向图）计算：多个应用程序存在依赖关系，使用Map Reduce后每个作业的输出结构都会写入洗盘，造成大量磁盘IO，导致性能下降。

Map Reduce工作流程

MapTask工作机制

1，Read阶段：MapTask先调用InputFormat类中的getSplits方法对文件进行切片，切片之后从每个Split中解析出一个个key——value交给map方法处理，每个键值对调用一次map方法。

2，Map阶段：map方法收到键值对后，按照指定的逻辑对键值对进行解析，之后输出解析后的新的键值对。

3，Collect阶段：需要注意的是，map方法产生键值对后，也并不是直接把键值对传递给ReduceTask，而是通过Collect方法收集输出结果，并按照指定的规则进行分区，分区后写入缓冲区。

4，Spill阶段：当缓冲区使用达到指定阈值，MapTask会将缓冲区的数据冲刷（flush）到本地磁盘上，这个过程称之为溢写（spill）。溢写步骤如下：

第一步，排序。利用快排算法，对缓冲区的数据进行排序，使分区之间有序，每个分区的数据有序。

第二步，合并。如果用户指定了Combiner类，那此时会对缓冲区的数据进行combiner操作。

第三步，写出。按照分区号的大小，将每个分区一次写入任务工作目录的临时文件spillN.out。N表示第几次溢写。

第四步，压缩。如果用户指定了对临时文件进行压缩，那就压。

第五步，记录。将分区的元数据记录到内存索引数据结构SpilRecord中，内存索引结构会写入spillN.out.index文件中。

5，Merger阶段：MapTask会将所有临时文件合并成一个大的结果文件file.out，同时生成对应的file.out.index。在merger过程中，会再次对数据进行分区，分区后排序，这次使用归并排序。如果指定了Combiner，那就合并。注意，merger的时候，默认没10个小文件合并成一个大文件，最终合并成一个大文件，file.out。

ReduceTask工作机制

1，当有5%的MapTask结束之后，就会启动ReduceTask。

2，每个ReduceTask会启动5个fetch线程获取数据。

3，fetch线程会通过http中的个体请求获取当前ReduceTask所处理的对应分区的数据。

4，fetch线程抓取来数据后，会判断数据的大小，如果超过了缓冲区大小的66%，就会将数据直接写到磁盘上。

5，拷贝完所有数据后，ReduceTask会对数据进行分组，将数据排序，合并成一个大文件后，将相同的建对应的值放到一个伪迭代器中。

6，分组后，每个键调用一次reduce方法，按照指定逻辑处理数据，形成新的键值对，并传递给OutputFotmat。

7，OutputFormat收到键值对后，按照指定格式将数据写道指定的路径。

关注

17
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
简单理解MapReduce

Map Reduce是Hadoop提供的一套用于分布式计算的模型。Map Reduce由两阶段组成，Map（映射）阶段和Reduce（规约）阶段。
复制链接

扫一扫

关键校验 CSDN认证博客专家 CSDN认证企业博客

码龄3年

14: 原创

127万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

428: 积分

179: 粉丝

284: 获赞

6: 评论

199: 收藏

私信

关注

热门文章

最新评论

简单理解zookeeper之底层原理
CSDN-Ada助手: 恭喜作者第10篇博客发布！阅读了您的文章，对于简单理解zookeeper之底层原理有了更清晰的认识。希望您能继续保持创作的热情和努力，不断分享更多有价值的内容。或许下一步可以深入探讨zookeeper的应用场景或者与其他技术的结合，期待您更多精彩的文章！
简单理解Zookeeper之选举机制
CSDN-Ada助手: 恭喜您写了第11篇博客！标题“简单理解Zookeeper之选举机制”非常吸引人，内容也很有深度。希望您能继续保持创作的热情和劲头，为读者带来更多有价值的知识。下一步建议可以尝试结合实际案例或者图文并茂的方式，让读者更加直观地理解Zookeeper的选举机制。期待您更多精彩的文章！
简单理解zookeeper
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“简单理解zookeeper”！您对这个主题的解释清晰易懂，让读者受益匪浅。希望您能继续坚持创作，分享更多有趣、有深度的内容。下一步可以考虑深入探讨zookeeper的应用场景或者与其他技术的结合，让读者更全面地了解这个话题。期待您的下一篇作品！
简单理解HBase
CSDN-Ada助手: 恭喜您撰写了第四篇博客“简单理解HBase”，对于HBase的解读让读者更加容易理解这个复杂的技术。希望您能继续保持创作的热情，分享更多有价值的内容。或许下一步可以深入探讨HBase的应用场景或者与其他技术的结合，让读者对HBase有更全面的了解。期待您的更多精彩文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
简单理解HDFS
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。