MapRuduce中shuffle过程简介

最新推荐文章于 2024-07-31 19:38:21 发布

Yang_Yvan

最新推荐文章于 2024-07-31 19:38:21 发布

阅读量817

点赞数

文章标签： java spark hadoop 大数据 redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yang_Yvan/article/details/111466853

版权

shuffle过程是MapReduce整个工作流程的核心环节

map : mapShuffle
reduce: reduceShuffle
**1.在Map端的shuffle过程：Map输出的结果首先被写入缓存，当缓存满时，启动溢写(环形缓冲区（100M。80M）)操作，把缓存写入磁盘文件，然后清空缓存，
2当启动溢写操作时，首先需要把缓存中的数据进行分区(partition)，然后对每个分区进行排序(sort)，合并(combine)，
3之后再写入磁盘文件，每次溢写操作会生成一个新的磁盘文件，随着Map任务的执行，会有越来越多的磁盘文件，然后通知相应的Reduce来领取属于自己的数据
**2.在Reduce端的shuffle过程，Reduce任务领回属于自己的数据后，然后对数据进行归并（Merge）然后交给Reduce处理
2.Map端的shuffle
**Map端的shuffle包括四个步骤

输入数据和执行Map任务：Map输入的数据一般保存在HDFS文件块中，这些文件块的格式可以是任意的
写入缓存：每个Map任务都会被分配一个缓存，Map输出的结果不是立即写入磁盘，而是首先写入缓存，积累一定缓存后，再一次性批量写入磁盘，这样可以大大减少对磁盘IO的影响，因为每次磁盘寻址开销很大，在写入缓存之前，键值对都会被序列化成字节数组
溢写（分区，排序，合并）：提供给MapReduce的缓存容量是有限的，默认大小100MB，

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapRuduce中shuffle过程简介

shuffle过程是MapReduce整个工作流程的核心环节map : mapShufflereduce: reduceShuffle**1.在Map端的shuffle过程：Map输出的结果首先被写入缓存，当缓存满时，启动溢写(环形缓冲区（100M。80M）)操作，把缓存写入磁盘文件，然后清空缓存，2当启动溢写操作时，首先需要把缓存中的数据进行分区(partition)，然后对每个分区进行排序(sort)，合并(combine)，3之后再写入磁盘文件，每次溢写操作会生成一个新的磁盘文件，随着Ma
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。