《Hadoop权威指南》笔记－关于MapReduce

最新推荐文章于 2023-10-30 01:58:31 发布

约瑟夫的杂货店

最新推荐文章于 2023-10-30 01:58:31 发布

阅读量368

点赞数

分类专栏：大数据技术文章标签： Hadoop 大数据 MapReduce

本文链接：https://blog.csdn.net/butterfly9844/article/details/80422888

版权

大数据技术专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本笔记主要总结记录2.4节横向扩展。

本小结简单介绍了Hadoop中MapReduce的执行流程，即对数据流的处理过程，和多map对应多reduce的情况。

数据流

Mapduce主要分成一下五步：
1. MapReeduce作业（job）：客户端需要执行的一个工作单元，包括输入数据、MapReduce程序和配置信息。其主要分为两大类任务：map任务和reduce任务，这些任务运行在集群节点上，由yarn调度。
2. 输入分片（input spilt）：简称分片，Hadoop将MapReduce输入数据分成等长小数据块即分片，并为每片构建一个map任务。默认分片大小最好HDFS的一个块的大小，一般为128MB。
3. 在存储输入数据（HDFS中的数据）的节点上运行map任务，因为这样减少不同节点间的数据传输，节约带宽资源，叫做“数据本地优化“（data locality optimization）。如果一个map任务的所有HDFS副本存在的节点都不空闲，则需要其他节点运行该任务，这样是无法实现“数据本地优化“的；
4. map将其输入写入本地硬盘而非HDFS。因为map的输入为中间结果，一旦作业完成，中间结果可以被删除，因此如果存在HDFS上有些小题大做；
5. reduce的输入通常来自所有mapper的输出，因此不具有“数据本地化“优势，reduce的输出通常存储在HDFS中以实现可靠存储；

备注：HDFS为Hadoop分布式文件系统（Hadoop Distribute File System），其将数据备份多次存储在不同节点，和本地硬盘相比有更高的稳定性但同时代价更大。因此在第4步中才说对于中间结果存储在HDFS上有些小题大做。

多map与多reduce

每个mao任务回针对输出进行分区（partition），即为每个reduce任务建立一个分区。分区通常使用默认的partitioner通过哈希函数分区，也可以用户用分区函数定义分区规则。
这里写图片描述
图1 多map单reduce

图2 多map多reduce
这也是map任务和reduce任务之间的数据流成为混洗（shuffle）的原因。当数据可完全并行时，会出现无reduce的情况。

图3 无reduce

combiner函数

在每个节点的map之后执行，节约map和reduce之间的数据传输量。当然也受制于可用的函数类型。
比如在［12，4，90，23，12，9］中找到最大值。假设该Hadoop有两个节点，两个map分别为［12， 4， 90］和［23，12，9］，如果不做combiner则共传输6个数字，但若在每个map后执行combiner，传输该map中的最大值就可以将数据量减少到2个数字。当然可以看出，如果是求平均值则无法简单调用combiner 。

结语

本章简单介绍了Hadoop的流程，对应《Hadoop权威指南》2.4节横向扩展，有兴趣的朋友可阅读原文。

约瑟夫的杂货店

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Hadoop权威指南》笔记－关于MapReduce

本笔记主要总结记录2.4节横向扩展。本小结简单介绍了Hadoop中MapReduce的执行流程，即对数据流的处理过程，和多map对应多reduce的情况。数据流Mapduce主要分成一下五步： 1. MapReeduce作业（job）：客户端需要执行的一个工作单元，包括输入数据、MapReduce程序和配置信息。其主要分为两大类任务：map任务和reduce任务，这些任务运行在集...
复制链接

扫一扫