MapReduce计算框架的一般流程有以下几个步骤

最新推荐文章于 2025-08-17 14:44:52 发布

王树民

最新推荐文章于 2025-08-17 14:44:52 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangshuminjava/article/details/102503312

Hadoop 专栏收录该内容

85 篇文章

订阅专栏

本文深入解析MapReduce计算框架的工作流程，包括输入拆分、迭代、映射、洗牌、归并及最终输出等关键步骤，阐述了其在大数据处理中的核心作用。

MapReduce计算框架的一般流程有以下几个步骤:

输入 ( Input ) 和拆分 ( Split ):

对数据进行分片处理。将源文件内容分片成一系列的 InputSplit，每个 InputSplit 存储着对应分片的数据信息，记住是对文件内容进行分片，并不是将源文件拆分成多个小文件。

迭代 ( iteration ):

遍历输入数据，并将之解析成 key/value 对。拆分数据片经过格式化成键值对的格式，其中 key 为偏移量，value 是每一行的内容，这一步由MapReduce框架自动完成。

映射 ( Map ):

将输入 key/value 对映射 ( map ) 成另外一些 key/value 对。MapReduce 开始在机器上执行 map 程序，map 程序的具体实现由我们自己定义，对输入的 key/value 进行处理，输出新的 key/value，这也是hadoop 并行事实发挥作用的地方。

洗牌 ( Shuffer ) 过程:

依据 key 对中间数据进行分组 ( grouping )。这是一个洗牌的过程，得到map方法输出的对后，Mapper 会将它们按照 key 值进行处理，这包括 sort (排序)、combiner (合并)、partition (分片) 等操作达到排序分组和均衡分配，得到 Mapper 的最终输出结果交给 Reducer。mapper 和 reducer 一般不在一个节点上，这就导致了reducer 需要从不同的节点上下载数据，经过处理后才能交给 reducer 处理。

归并( Reduce ):

以组为单位对数据进行归约 ( reduce )。Reducer 先对从 Mapper 接收的数据进行排序，再交由用户自定义的 reduce方法进行处理。

迭代:

将最终产生的 key/value 对保存到输出文件中。得到新的对，保存到输出文件中，即保存在 HDFS 中。

关于更加细化的过程我会在以后的文章中更新

博客等级

码龄9年

560
原创

748
点赞

3236
收藏

912
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: MapReduce工作流程最详细解释

下一篇：: git ssh-add 报错 ssh-add Could not open a connection to your authentication agent

最新评论

Redis使用pipeLine批量获取数据加快接口响应速度
凡人张小凡: 单个 Redis 命令的执行是原子性的，但 Redis 没有在事务上增加任何维持原子性的机制，所以 Redis 事务的执行并不是原子性的。事务可以理解为一个打包的批量执行脚本，但批量指令并非原子化的操作，中间某条指令的失败不会导致前面已做指令的回滚，也不会造成后续的指令不做。这是官网上的说明 From redis docs on transactions: It's important to note that even when a command fails, all the other commands in the queue are processed – Redis will not stop the processing of commands.
PoolingHTTPClient 优化
Django47: 为啥sonarqube要求pollingConnectionManager必须关掉
Flink 清理过期 Checkpoint 目录的正确姿势
yhz_1992: 在验证的时候发现，还需要获取private state的hdfs路径，不然通过checkpoint是跑不起来的
出现 org.springframework.beans.factory.BeanCreationException 异常的原因及解决方法
m0_55165974: 也可能是java版本不对，看下是否匹配
druid集群的安装和验证
卡林神不是猫: 王老师您好！请问拷贝Hadoop的jar包去哪里拷贝呢？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。