MapReduce（1）

最新推荐文章于 2024-10-08 09:12:18 发布

惜言_

最新推荐文章于 2024-10-08 09:12:18 发布

阅读量71

点赞数

文章标签： mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c05180/article/details/133827664

版权

整体流程

MapReduce是由一组数据每条记录通过Map方法映射成为一组KV数据，相同key为一组执行reduce方法，方法内迭代执行数据。

在这里插入图片描述

由图所示，数据输入来源于HDFS的块，由HDFS块读取同样大小的切片数据，切片数据通过格式化format成一条条record记录，record作为map方法入参执行map方法生成kv键值对数据（1条、多条、或者无输出）。

在所有的record执行完map后，将所有的kv键值对，根据不同的key分组copy到不同的reduce机器上，将不同的map机器数据合并完后，同一key的数据执行reduce方法，输出最终数据。

并行度

Map的并行度由split的数量决定(默认是1:1关系)，Reduce的并行度由人为决定（默认1）

映射关系

block:split 可能为1:1、1:n、n:1

split:map为1:1

map:reduce可能为1:1、1:n、n:1、n:n，但是同一组数据不同打散到不同reduce，不然数据不准

group(key):partition可能为1:1、1:n、n:1、n:n同一组数据只能写入一个分区

任务流程

在这里插入图片描述

MapReduce任务流程

一次Map Reduce的流程如上图所示。在map阶段，输入切片通过指定的格式化方法生成记录，记录通过map方法映射生成kv键值对，通过kv键值对计算分区p，将kvp值写入内存缓冲区。在缓冲区溢出写磁盘时同时做两次排序，一次根据分区P进行排序，一次根据k进行排序，将排序后的数据写入磁盘。

在reduce阶段，对来自不同map机器的数据进行归并排序，归并到最后两个文件时，reduce和归并排序可以同时进行。

对节省IO做的优化：

1、数据先写入缓冲区

2、在缓冲区做两次排序后在写入磁盘，缓冲区速度是磁盘的N倍。保证分区P的排序后可以实现多台reduce机器fetch文件时只需要打开文件直接读取属于自己分区P的数据，无须从头到尾扫描。同理保证K的顺序，可以在reduce时，对一组数据（相同key）调用方法，可以打开文件顺序读取key相同的数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

惜言_ CSDN认证博客专家 CSDN认证企业博客

码龄12年

2: 原创

102万+: 周排名

167万+: 总排名

1417: 访问

: 等级

20: 积分

0: 粉丝

0: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

分类专栏

JAVA

最新评论

MapReduce（1）
CSDN-Ada助手: 非常感谢您分享关于MapReduce的第二篇博客！您的文章非常详细地介绍了MapReduce的工作原理和数据处理流程。我非常期待看到您的后续文章，希望您能继续创作。除了MapReduce的基本概念之外，您还可以扩展一些与之相关的知识和技能。例如，您可以介绍如何优化MapReduce的性能，如何处理异常情况，以及如何设计合适的Map和Reduce函数等。此外，您还可以探讨一些与MapReduce相关的分布式计算框架，如Apache Spark和Hadoop等。希望我的建议对您有所帮助。再次感谢您的分享，期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

数仓基本概念：数据集市及分层

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。