MapReduce知识点

最新推荐文章于 2024-06-04 15:07:48 发布

宇宙中的Philip

最新推荐文章于 2024-06-04 15:07:48 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/qq_33439938/article/details/108561237

版权

大数据专栏收录该内容

10 篇文章 3 订阅

订阅专栏

MapReduce

知识点结构图
本文初衷是为了学习归纳，若有错误，请指出。

修改记录

时间	内容
2020年9月13日	第一次发布
2020年9月15日	修改知识点结构图

一、MapReduce概述

1.1 MapReduce定义

MapReduce是采用一种分而治之的思想设计出来的分布式计算框架
如一项复杂的计算任务，单台服务器无法胜任时，可将此大任务切分成一个个小的任务，分别交给不同的服务器上并行执行，最终再汇总每个小任务的结果
MapReduce由两个阶段组成：Map阶段（把一个任务切分成多个任务），Reduce阶段（汇总分解后多任务的结果）

1.2 MapReduce优缺点

1.2.1 优点

MapReduce易于编程：他简单的实现一些接口，就可以完成一个分布式程序
良好的扩展性：可以通过简单的增加机器来扩展它的计算能力
高容错性：假设集群中一台集群挂了，他可以把上面的计算任务转移到另一个节点上运行，而不至于这个任务失败。
适合PB级以上海量数据的离线处理：集群中的服务器并发工作，数据处理能力强。

1.2.2 缺点

不擅长实时计算：无法像一些OLTP数据库一样，在毫秒或者秒级内返回结果。
不擅长流式计算：流式计算的输入数据是动态的，而MapReduce的输入集数据是静态的，不能动态变化。
不擅长DAG有向图计算：应用程序之间存在依赖关系，前一个应用的输出作为下一个应用的输入，这种情况下MapReduce不是不能做到，而是使用后，MapReduce作业的输出结果都要写入到磁盘，造成大量的磁盘IO，很影响性能。

二、MapReduce工作机制

MapReduce的分布式计算分为两个过程：Map阶段和Reduce阶段

2.1 Map阶段的工作机制

在这里插入图片描述

详细过程：

（1）首先读取HDFS中的文件，每个文件都被切分成一个个block形式存在，block中的一行数据解析成一个kv对，并且每一个kv对会调用一次map task中的map函数
（2）map方法对接收到的kv对进行分片处理，转换输出成新的kv对，并先写入到一个环形缓冲区。
（3）环形缓冲区大小为100MB，在写满80%时就会溢写到磁盘文件
（4）在写入到磁盘文件的过程中，会对kv对进行分区和排序分组，以及判断是否需要Combiner压缩，这中间会涉及到map的shuffle过程。
（5）最后成功写入磁盘，供后续reduce作为输入参数调用。

2.2 Reduce阶段的工作机制

在这里插入图片描述

详细过程：

Reduce Task从各个Map Task上远程拷贝数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中
在远程拷贝数据的同时，ReduceTask会对内存和磁盘上的文件进行合并，以防止内存使用过多或者磁盘上文件过多。(这里的合并是比如第一个map task的1号分区数据和第二个map task的一号分区数据放在一起)
然后进行归并排序（这里的合并，类似于，第一个map task传过来的一号分区数据是[<a,1>,<b,1>,<c,1>]，第二个map task传过来的一号分区数据是[<g,1>]，那么合并后就是[<a,1>,<b,1>,<c,1>,<g,1>]）
最后reduce函数汇总计算，将输出结果保存在HDFS中。

三、MapReduce的Shuffle

hadoop的shuffle过程实际上包含在map阶段和Reduce阶段，即分为Map Shuffle和Reduce Shuffle。

3.1 Map Shuffle

在这里插入图片描述

Map Shuffle的过程是对map的结果进行分区排序，然后按照同一分区的输出合并在一起写入到磁盘中，最终得到一个分区有序的文件。大致流程是：

（1）从map函数输出的kv对数据会先写入到一个环形缓冲区，大小为100MB，但写满80%时就会溢写到磁盘。
（2）在写入到磁盘文件的过程中，会对kv对进行HashPartition分区和排序，分区后具有相同分区号的键值对存储在一起，每个分区里面的键值对又按key值进行排序。
- HashPartition是mr程序默认的分区方法，它会对kv对的key求hash值，然后对reduce的个数求模运算，最后得到的分区号作为分配给不同reduce的根据，
（3）接下来会判断是否需要combine压缩具有同一key的键值对数据
（4）最后作为map task输出准备传输给reduce。

3.2 Reduce Shuffle

在这里插入图片描述

Reduce Shuffle过程中，是从reduce端通过网络传输向磁盘获取map输出开始，中间reduce shuffle也会把分区号相同的数据放到一个reduce，然后归并排序，最终形成一个整体有序的数据块，但这个reduce shuffle过程是一直到调用reduce方法之前，也就是reduce shuffle并不包括调用reduce方法

四、MapReduce的Combiner

4.1 应用的场景

正常情况下，Hadoop框架使用map task将数据处理成一个key-value键值对，在网络节点间对其整理（shuffle洗牌），然后再使用Reduce处理数据并进行最终输出。

但是在中间这个shuffle过程中，如果数据量很大（假设100亿），而需求只是求一个最大值，那么单个Reduce需要承载的kv对数量也将是庞大的，会降低程序的性能。

于是出现Combiner。

4.2 作用

Combiner是为了避免map task和reduce task之间的数据传输压力而设置的，它允许用户针对map task的输出指定一个合并函数，减少传输到reduce的数据量，从而减少网络带宽和reduce的负载。

4.3 实现原理

在这里插入图片描述

combiner会压缩key-value中具有同一key值的键值对。
map端本地合并，不论运行多少次combiner操作，都不会影响最终结果。combiner只是作为可选的操作。
- 实际上combiner是作为可选项，有没有设置或者设置多少次都不会影响最终结果，在shuffle过程中会判断是否设置而进行压缩。
并非所有的mr都适合combine操作，比如求平均值就不适合。

五、自定义分区

5.1 map自带的分区

Map自带的分区器是HashPartitioner，如下图所示。
对于从map输出的key-value键值对，先根据key求hash值，然后模上reduce task个数，得出分区号，根据分区号决定输出kv对。

在这里插入图片描述

5.2 自定义分区

主要继承Partitioner,将getPartition方法根据key返回固定值。

– 待补充

六、MapReduce数据倾斜

6.1 什么是数据倾斜？

简单说，数据倾斜就是数据的key值分化严重不均，造成一部分数据很多，一部分数据很少，出现离群值。就拿广东一年四季的气温成正态分布来说，一年的气温集中在25°到35°之间，而其他温度比较少，这个集中值在数据中就容易出现数据倾斜。

常见的数据倾斜有以下两类：

数据频率倾斜——某一个区域的数据量要远远大于其他区域。比如某一个key对应的键值对数量远远大于其他键的键值对数量。
数据大小倾斜——部分数据记录的大小远远大于平均值。

6.2 数据倾斜造成的后果

数据倾斜会显著的拖慢MR的执行，因为如果有些数据量分布少，就能提前执行完，但它要继续等待数据量多的mr任务。

在map端和reduce端都有可能发生数据倾斜。在reduce端的数据倾斜常常来源于MapReduce的默认分区器。

数据倾斜会导致map和reduce的任务执行时间大为延长，也会让缓存数据操作消耗更多的内存资源。

6.3 如何诊断发现是否有数据倾斜的存在？

一方面是通过log日志查看各mapreduce任务所用的时间是否平均

另一方面是从java代码层面上看：

第一种：在reduce方法中添加变量追踪每个键的最大值，为了减少追踪量，可以设置数据量阈值，只追踪哪些大于阈值（yu）的键，然后输出到日志信息。
第二种：另一种是关注map的输出数据中是否有数据频率倾斜问题，通常可以在业务层面判断自定义分区键是否合理。

6.4 MapReduce减少数据倾斜的方法

（1）抽样和范围分区

MapReduce默认的分区器是HashPartitioner，基于map输出键的哈希值分区。这仅在数据分布比较均匀时比较好。在有数据倾斜时就很有问题。

这时就可以通过对原始数据进行抽样得到的结果集来预设分区边界值，比如使用TotalOrderPartitioner分区器。TotalOrderPartitioner中的范围分区器可以通过预设的分区边界值进行分区。因此它也可以很好地用在矫正数据中的部分键的数据倾斜问题。

简单来说，就是TotalOrderPartitioner能采样得知哪些键的数据量大，然后按照采样结果寻找key值的最佳分割点，将key-value对均匀的分布到不同分区中。
（2）自定义分区

基于输出键的业务知识进行自定义分区。例如，淘宝一年的销售数据可能集中在双十一活动上，那么就把双十一的销售数据值均分给其他时间段的来分区。
（3）Combine

使用Combine可以大量地减小数据频率倾斜和数据大小倾斜。
（4）采用Map Join

Map Join 适用于一张表十分小、一张表很大的场景。

在 Map 端缓存多张表，提前处理业务逻辑，这样增加 Map 端业务，减少 Reduce 端数据的压力，尽可能的减少数据倾斜。
（5）限制ReduceReader读取键值对的最大长度（在mapreduce.input.linerecordreader.line.maxlength方法中）（-- 待补充）

七、MapReduce的数据压缩

7.1 压缩概述

压缩可以有效减少底层存储系统（HDFS）读写字节数，可以提高网络带宽和磁盘空间的效率，在运行MR程序时，IO操作、网络传输、Shuffle和Merge都要花费大量时间，尤其是数据规模很大和工作负载密集的情况下。

数据压缩对于节省资源、最小化磁盘IO和网络传输很有帮助，可以在任意MR阶段启用压缩。

7.2 压缩策略和原则

压缩是提高Hadoop运行效率的一种优化策略

通过对Map、Reduce运行过程的数据进行压缩，以减少磁盘IO，提高MR程序运行速度。

注意：压缩技术减少了磁盘IO，但同时也增加了CPU运算负担。

压缩原则：

运算密集型的job，少用压缩
IO密集型的job，多用压缩。

7.3 MR支持的压缩编码

在这里插入图片描述

为了支持多种压缩/解压缩算法，Hadoop 引入了编码/解码器，如下表所示。

在这里插入图片描述

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.6GB	17.5MB/s	58MB/s
bzip	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

7.4 压缩方式选择

7.4.1 gzip

优点：压缩率比较高，而且压缩/解压速度也比较快；Hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；大部分Linux系统都自带gzip命令，使用方便
缺点：不支持Split分片
应用场景：当每个文件压缩之后在130M以内（1个块大小内），就可以考虑gzip压缩，比如一天或者一个小时的日志，

7.4.2 bzip

优点：支持Split；具有很高的压缩率，比gzip高；Hadoop自带，使用方便
缺点：压缩、解压速度慢
应用场景：适合对速度要求不高，但需要较高的压缩率时；或者输出的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；还有对单个很大的文本文件想压缩减少存储空间，同时需要支持split，并且兼容之前的应用程序的情况。

7.4.3 LZO压缩

优点：压缩/解压速度比较快，合理的压缩率；支持Split，是Hadoop中最流行的压缩格式；可以在Linux系统下安装lzop命令，使用方便
缺点：压缩率比Gzip要低一些；Hadoop本身不支持，需要安装；在应用中对Lzo格式的文件需要做一些特殊处理（比如为了支持分片需要建索引，还要指定InputFormat为Lzo格式）
应用场景：一个很大的文本文件，压缩之后还大于200M以上可以考虑，而且单个文件越大，Lzo优点越明显。

7.4.4 Snappy压缩

优点：高速压缩速度和合理的压缩率
缺点：不支持Split；压缩率比Gzip低；Hadoop本身不支持，需要安装
应用场景：当MR作业的map输出的数据比较大时，作为map到reduce的中间数据格式可以考虑；或者作为一个mapreduce作业的输出和另一个MapReduce作业的输入时可以考虑。

7.5 MR的压缩位置

在这里插入图片描述

7.6 压缩参数配置

要在 Hadoop 中启用压缩，可以配置如下参数：

在这里插入图片描述

宇宙中的Philip

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
MapReduce知识点

MapReduce知识点结构图本文初衷是为了学习归纳，若有错误，请指出。修改记录时间内容2020年9月13日第一次发布一、MapReduce概述1.1 MapReduce定义MapReduce是采用一种分而治之的思想设计出来的分布式计算框架如一项复杂的计算任务，单台服务器无法胜任时，可将此大任务切分成一个个小的任务，分别交给不同的服务器上并行执行，最终再汇总每个小任务的结果MapReduce由两个阶段组成：Map阶段（把一个任务切分成多个任务），R
复制链接

扫一扫