MapReduce和shuffle过程

最新推荐文章于 2024-06-20 08:04:37 发布

Q_Anyang

最新推荐文章于 2024-06-20 08:04:37 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q_Anyang/article/details/79508254

版权

本文详细介绍了谷歌提出的分布式并行编程模型MapReduce及其开源实现Hadoop MapReduce。MapReduce设计理念是“计算向数据靠拢”，采用Master/Slave架构。Map和Reduce函数分别进行数据映射和整合。文章重点解析了MapReduce工作流程中的shuffle过程，包括Map端的分区、排序、合并以及Reduce端的数据领取、归并和输入给Reduce任务。整个shuffle过程确保了数据的有效处理和并行计算。

摘要由CSDN通过智能技术生成

7.1 概述

7.1.1分布式并行编程

1.很长一段时间里，CPU遵循摩尔定律，每18个月性能翻一番，价格降一半

2.分布式并行编程与传统的程序开发方式有很大的区别，传统都是以单指令，单数据流的方式顺序执行，但是这样性能收到了单台机器的限制，但是分布式并行程序可以通过向集群中增加单节点来提高集群的能力扩充

3.谷歌首先提出了分布式并行编程模型MapReduce，Hadoop MapReduce是它的开源实现，谷歌的MapReduce运行在GFS中，Hadoop MapReduce运行在HDFS上

7.1.2MapReduce模型简介

1.用MapReduce 来处理的数据集需要满足，数据集可以被拆分成多个小数据集，而且每个小数据集可以完全并行的处理

2.MapReduce的设计理念是“计算向数据靠拢”，因为移动数据需要很大的网络开销，所以，移动计算比移动数据更经济

3.MapReduce框架采用Master/Slave架构，包括一个Master和若干个slave，Master上运行JobTracker，slave上运行TaskTracker，JobTracker负责作业和任务的调度，监控他们的执行，TaskTracker负责执行由JobTracker指派的任务

4.Hadoop框架是用Java实现的，但是MapReduce不一定要用Java来写

7.1.3Map 和 Reduce函数

1.Map和Reduce函数都是以键值对作为输入，按一定规则映射成另一个键值对进行输出

2.Map的输入来自分布式文件系统的文件块，这些文件块的格式是任意的，同一个元素不能跨文件块存储，Map的键值的类型也是任意的，其中，键不同于一般的标志属性，就是键没有唯一性，

3.Reduce的任务就是把输入的一系列具有相同键的键值对以某种方式组合起来，输出结果会合并成一个文件，用户可以指定Reduce的个数，并通知实现系统，然后主控进程通常会选择一个Hash函数，Map任务输出的键都会经过这个Hash函数计算

7.2 MapReduce的工作流程

7.2.1工作流程概述

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MapReduce和shuffle过程

7.1 概述7.1.1分布式并行编程1.很长一段时间里，CPU遵循摩尔定律，每18个月性能翻一番，价格降一半2.分布式并行编程与传统的程序开发方式有很大的区别，传统都是以单指令，单数据流的方式顺序执行，但是这样性能收到了单台机器的限制，但是分布式并行程序可以通过向集群中增加单节点来提高集群的能力扩充3.谷歌首先提出了分布式并行编程模型MapReduce，Hadoop MapReduce是它的开源实...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。