MapRedece执行流程各个阶段的理解

cyjgfs

已于 2022-05-25 14:57:17 修改

阅读量294

点赞数 1

分类专栏：大数据文章标签： hadoop hdfs big data 大数据

于 2022-05-25 14:55:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyjgfs/article/details/124961297

版权

本文详细解析了MapReduce的执行过程，包括split阶段，map阶段，shuffle阶段（mapshuffle和reduceshuffle）以及reduce阶段。在split阶段，大文件被逻辑切片，map阶段中数据被解析成键值对，shuffle阶段负责数据的分区、排序和合并，而reduce阶段则进行最后的数据归并。整个流程确保了数据的有效处理和传输效率。

摘要由CSDN通过智能技术生成

阶段

大致阶段：split->map->shuffle->reduce

split阶段

split是将一个大文件进行逻辑上的切片，主要记录的是数据位置而非数据本身，一个分片对应一个map，以提高map处理的并行度。由于map任务的本地化，split大小默认和block大小相同，避免跨节点block带来网络开销

map阶段

每个map任务是一个java进程，它会读取HDFS中自己的输入分片，将分片中的数据按照一定规则解析成很多的键值对

shuffle阶段

shuffle阶段完成对数据的分区，排序和合并等操作，描述着数据从map端流向reduce端的过程，分为map shuffle 和 reduce shuffle

mapshuffle

一、map输出的结果存到内存缓冲区中（其中会进行快速排序，以提高效率）,该缓冲区默认大小为100M，当达到80M（80%）时，系统会系统一个spill线程，会将缓冲区数据溢写到磁盘

二、溢写文件前，先根据分区号和key进行排序，根据reduce任务数将数据划分成相同数目的partition（为避免分区导致不同reduce分配数据量不均衡。分区就是hash过程，默认按照hash（key）%numRedeceTask = 分区号）写入文件，然后对每个partition进行排序，此时如果有combiner࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cyjgfs CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

75万+: 周排名

195万+: 总排名

2万+: 访问

: 等级

252: 积分

21: 粉丝

38: 获赞

37: 评论

113: 收藏

私信

关注

热门文章

分类专栏

大数据 1篇
scala
笔记 6篇

最新评论

解决jupyter notebook打不开无反应浏览器未启动的问题
★永恒的回忆★: 谷歌路径找自己电脑上的不一定是作者的这个
解决jupyter notebook打不开无反应浏览器未启动的问题
写不好代码的Luso: 一个tip: 复制的时候要注意引号用英文状态下的
解决jupyter notebook打不开无反应浏览器未启动的问题
&&CQ: 我现在换了个盘能用之后，过了两天又打不开了，但是现在能用Anaconda Navigator打开，之前是怎么都打不开，，不过现在我不怎么用了，现在用pycharm了
解决jupyter notebook打不开无反应浏览器未启动的问题
cyjgfs: 你这应该不是闪退吧，我文章里有输入命令后无反应的解决方法，你再看看
解决jupyter notebook打不开无反应浏览器未启动的问题
&&CQ: 开jupyter的时候命令行窗口直接闪退怎么办昨天装了pycharm后出现的这个问题

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。