MR架构&文件格式优缺点&压缩格式优缺点&spilt -> map task关系&wordcount&shuffle的理解

最新推荐文章于 2023-02-10 11:21:52 发布

Stefanboy

最新推荐文章于 2023-02-10 11:21:52 发布

阅读量515

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/csdn_mycsdn/article/details/103484733

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

MapReduce是什么

mapreduce分为map阶段和reduce阶段
map阶段是映射生产上可以对于此进行调优，比如合并小文件
reduce阶段是聚合生产上默认是生成1个文件

mr2.x架构设计（mr on yarn 流程）

Yarn介绍

yarn包括RM和NM

RM
RM包括两部分
1、applications Manager 应用程序管理器
2、resoure schedule 资源memory+cpu调度器
NM
NM上的红色框是container
container是虚拟的概念，属于NM节点上，专门用来做mr、spark计算的最小单元；maptask和reducetask都运行在container上

mr on yarn 流程简单介绍

1、启动App Master,分配资源
2、运行任务，直到任务结束

mr on yarn流程详细介绍

第一阶段：
1、用户向yarn提交应用程序（也叫job app application），jar、sql，其中包括App Master应用程序，启动AppMaster的命令等等
2、RM为该job分配第一个container，用来运行job的AppMaster
3、App Master会向RM的applications manager进行注册，使得可以再RM web界面查看job的运行状态
4、App Master采用轮询的方式通过rpc协议向RM申请资源和领取资源

第二阶段：
5、一旦App Master拿到资源，就对应的跟NM进行通信，要求启动任务
6、NM为任务设置好运行环境（jar等），将任务启动命令封装在一个脚本里，并通过该脚本启动task
7、各个task通过rpc协议向App Master汇报自己的状态和进度，以此让App Master随时掌握各个task的运行状态，从而在task运行失败时重启任务
8、运行完后，App Master向RM的applications Manager注销并关闭自己
在这里插入图片描述

文件格式有哪些优缺点

面向行

面向行：同一行的数据存储在一起，即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式，如果只需要访问行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。

面向列

面向列：整个文件被切割为若干列数据，每一列数据一起存储。Parquet , RCFile,ORCFile。面向列的格式使得读取数据时，可以跳过不需要的列，适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间，因为需要缓存行在内存中（为了获取多行中的某一列）。同时不适合流式写入，因为一旦写入失败，当前文件无法恢复，而面向行的数据在写入失败时可以重新同步到最后一个同步点

压缩格式有哪些优缺点

压缩的好处和坏处

好处
减少存储磁盘空间
降低IO(网络的IO和磁盘的IO)
加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度
坏处
由于使用数据时，需要先将数据解压，加重CPU负荷

压缩格式

在这里插入图片描述

压缩比

在这里插入图片描述

压缩时间

在这里插入图片描述

可以看出，压缩比越高，压缩时间越长，压缩比：Snappy>LZ4>LZO>GZIP>BZIP2

压缩格式的优缺点

压缩格式	优点	缺点
gzip	压缩比在四种压缩方式中较高；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便	不支持split
lzo	压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；需要在linux系统下自行安装lzop命令，使用方便	压缩率比gzip要低；hadoop本身不支持，需要安装；lzo虽然支持split，但需要对lzo文件建索引，否则hadoop也是会把lzo文件看成一个普通文件（为了支持split需要建索引，需要指定inputformat为lzo格式）
snappy	压缩速度快；支持hadoop native库	不支持split；压缩比低；hadoop本身不支持，需要安装；linux系统下没有对应的命令d. bzip2
bzip2	支持split；具有很高的压缩率，比gzip压缩率都高；hadoop本身支持，但不支持native；在linux系统下自带bzip2命令，使用方便	压缩/解压速度慢；不支持native

总结：

不同的场景选择不同的压缩方式，肯定没有一个一劳永逸的方法，如果选择高压缩比，那么对于cpu的性能要求要高，同时压缩、解压时间耗费也多；选择压缩比低的，对于磁盘io、网络io的时间要多，空间占据要多；对于支持分割的，可以实现并行处理。

应用场景：

一般在HDFS 、Hive、HBase中会使用；
当然一般较多的是结合Spark 来一起使用。

spilt -> map task关系

reduce task 默认个数为1，map task默认个数为2，map task的个数又与切片个数保持一致，切片是按照默认block大小进行切片，而切片数又与文件数和文件大小有关，切片默认大小决定文件被分成多少个切片，执行多少个map task，这也是生产上优化的一个点；

例如如果一个文件很小，不到一个block块大小
比如有一个文件为1.log 大小为86字节那么，他会被切分成1块，map task数量为1
假如有两个文件为1.log 2.log 大小分别为86字节和150M，这两个文件会被切成3块，map task 数量为3
参数在mapred-default.xml设置

key	value
mapreduce.job.maps	2
mapreduce.job.reduces	1

wordcount

在这里插入图片描述

输入分片（input split）

在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组，输入分片（input split）往往和hdfs的block（块）关系很密切，假如我们设定hdfs的块的大小是64mb，如果我们输入有三个文件，大小分别是3mb、65mb和127mb，那么mapreduce会把3mb文件分为一个输入分片（input split），65mb则是两个输入分片（input split）而127mb也是两个输入分片（input split），换句话说我们如果在map计算前做输入分片调整，例如合并小文件，那么就会有5个map任务将执行，而且每个map执行的数据大小不均，这个也是mapreduce优化计算的一个关键点。

map阶段

就是程序员编写好的map函数了，因此map函数效率相对好控制，而且一般map操作都是本地化操作也就是在数据存储节点上进行；

combiner阶段

combiner阶段是程序员可以选择的，combiner其实也是一种reduce操作，因此我们看见WordCount类里是用reduce进行加载的。Combiner是一个本地化的reduce操作，它是map运算的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作，例如我们对文件里的单词频率做统计，map计算时候如果碰到一个hadoop的单词就会记录为1，但是这篇文章里hadoop可能会出现n多次，那么map输出文件冗余就会很多，因此在reduce计算前对相同的key做一个合并操作，那么文件会变小，这样就提高了宽带的传输效率，毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源，但是combiner操作是有风险的，使用它的原则是combiner的输入不会影响到reduce计算的最终输入，例如：如果计算只是求总数，最大值，最小值可以使用combiner，但是做平均值计算使用combiner的话，最终的reduce计算结果就会出错。

shuffle阶段

将map的输出作为reduce的输入的过程就是shuffle了，这个是mapreduce优化的重点地方。这里我不讲怎么优化shuffle阶段，讲讲shuffle阶段的原理，因为大部分的书籍里都没讲清楚shuffle阶段。Shuffle一开始就是map阶段做输出操作，一般mapreduce计算的都是海量数据，map输出时候不可能把所有文件都放到内存操作，因此map写入磁盘的过程十分的复杂，更何况map输出时候要对结果进行排序，内存开销是很大的，map在做输出时候会在内存里开启一个环形内存缓冲区，这个缓冲区专门用来输出的，默认大小是100mb，并且在配置文件里为这个缓冲区设定了一个阀值，默认是0.80（这个大小和阀值都是可以在配置文件里进行配置的），同时map还会为输出操作启动一个守护线程，如果缓冲区的内存达到了阀值的80%时候，这个守护线程就会把内容写到磁盘上，这个过程叫spill，另外的20%内存可以继续写入要写进磁盘的数据，写入磁盘和写入内存操作是互不干扰的，如果缓存区被撑满了，那么map就会阻塞写入内存的操作，让写入磁盘操作完成后再继续执行写入内存操作，前面我讲到写入磁盘前会有个排序操作，这个是在写入磁盘操作时候进行，不是在写入内存时候进行的，如果我们定义了combiner函数，那么排序前还会执行combiner操作。每次spill操作也就是写入磁盘操作时候就会写一个溢出文件，也就是说在做map输出有几次spill就会产生多少个溢出文件，等map输出全部做完后，map会合并这些输出文件。这个过程里还会有一个Partitioner操作，对于这个操作很多人都很迷糊，其实Partitioner操作和map阶段的输入分片（Input split）很像，一个Partitioner对应一个reduce作业，如果我们mapreduce操作只有一个reduce操作，那么Partitioner就只有一个，如果我们有多个reduce操作，那么Partitioner对应的就会有多个，Partitioner因此就是reduce的输入分片，这个程序员可以编程控制，主要是根据实际key和value的值，根据实际业务类型或者为了更好的reduce负载均衡要求进行，这是提高reduce效率的一个关键所在。到了reduce阶段就是合并map输出文件了，Partitioner会找到对应的map输出文件，然后进行复制操作，复制操作时reduce会开启几个复制线程，这些线程默认个数是5个，程序员也可以在配置文件更改复制线程的个数，这个复制过程和map写入磁盘过程类似，也有阀值和内存大小，阀值一样可以在配置文件里配置，而内存大小是直接使用reduce的tasktracker的内存大小，复制时候reduce还会进行排序操作和合并文件操作，这些操作完了就会进行reduce计算了。

reduce阶段

和map函数一样也是程序员编写的，最终结果是存储在hdfs上的。

shuffle的理解

1、maptask收集我们的map()方法输出的kv对，放到内存缓冲区中
2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3、多个溢出文件会被合并成大的溢出文件
4、在溢出过程中，及合并的过程中，都要调用partitoner进行分组和针对key进行排序
5、reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据
6、reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）
7、合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快
缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认100M