maptask的运行机制，压缩机制，join算法

最新推荐文章于 2024-09-14 21:13:40 发布

滚小滚

最新推荐文章于 2024-09-14 21:13:40 发布

阅读量137

点赞数

分类专栏： MapReduce 文章标签： mapreduce

本文链接：https://blog.csdn.net/qq_25534101/article/details/114885643

版权

MapReduce 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入解析MapReduce的工作流程，包括数据的逻辑切片、键值对处理、分区与shuffle阶段。同时探讨了MapReduce中的数据压缩机制，介绍了如何开启压缩以及选择合适的压缩算法，以减少网络IO。最后提到了不同方式配置MapReduce任务的压缩选项。

摘要由CSDN通过智能技术生成

整体流程：

第一步：客户端将每一个block块进行逻辑切分，每一个切片对应一个filespilt，split包含的信息：分片的元数据信息，包含起始位置，长度，和所在节点列表等

第二步：设置map类，map类通过Textinputformat类按行读取切片信息，组成键值对k1，v1

第三步：map函数对键值对进行计算，输出<key,value,partition（分区号）>格式数据，partition指定该键值对由哪个reducer进行处理。通过分区器，key的hashcode对reducer个数取模

第四步：在环形缓冲区进行shffer

	map阶段shuffle：
	map将kvp都写入到自己的环形缓冲区内，环形缓冲区默认100M，阈值为80%，当到达80%的时候，就像磁盘溢写小文件。
	落地的小文件先按照分区号排序，区号相同的再按照key进行局部排序，如果溢写的小文件达到三个，则进行归并，归并为大文件，大的文件也是按照分区和key进行局部排序，目的是降低中间结果数据量
	此时，mapshuffle阶段处理完成，

第五步：reduce的shuffle阶段

	1，：reducer启动copy线程从maptask拉取数据，先放到内存中，
	2，：然后对数据进行merge
	这里的merge如map端的merge动作，只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比map端的更为灵活。merge有三种形式：内存到内存；内存到磁盘；磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge。与map 端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的文件。
	3：合并排序。把分散的数据合并成一个大的数据后，还会再对合并后的数据排序
	4：调用reduce逻辑方法

第六步：通过textoutputformat方法对数据进行输出

数据的压缩

MapReduce运行过程中数据的压缩
数据压缩的目的
在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多。

压缩算法的选择
首先，在Linux中cd到hadoop的安装目录，然后使用bin/hadoop checknative，查看目前支持的压缩方式，一般的hadoop不会支持全部的压缩方式，需要使用CDH版本hadoop的源码进行编译后，使用编译得到的安装包进行安装才能支持全部的压缩方式。具有工具的压缩方式需要使用yum安装。

开启压缩

方式一：在代码中进行设置压缩

public static void main(String[] args) throws Exception
 {
     Configuration configuration=new Configuration();
     //开启map阶段的数据压缩
     configuration.set("mapreduce.map.output.compress","true"); //设置压缩开启
     configuration.set("mapreduce.map.output.compress.codec",
             "org.apache.hadoop.io.compress.SnappyCodec"); //设置的压缩方式用到的类的源码路径，这里用Snappy压缩
     //开启reduce阶段的数据压缩
     configuration.set("mapreduce.output.fileoutputformat.compress","true"); //设置压缩开启
     configuration.set("mapreduce.output.fileoutputformat.compress.type","RECORD"); //设置压缩方式，这里是按行记录进行压缩
     configuration.set("mapreduce.output.fileoutputformat.compress.codec",
             "org.apache.hadoop.io.compress.SnappyCodec"); //设置压缩方式用到的类的源码路径，这里用Snappy压缩
     System.exit(ToolRunner.run(configuration,new FlowSortRun(),args));
 }

方式二：配置全局的MapReduce压缩

我们可以修改mapred-site.xml配置文件，然后重启集群，以便对所有的mapreduce任务进行压缩

map输出数据进行压缩

<property>
          <name>mapreduce.map.output.compress</name>
          <value>true</value>
</property>
<property>
         <name>mapreduce.map.output.compress.codec</name>
         <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

reduce输出数据进行压缩

<property>     
		  <name>mapreduce.output.fileoutputformat.compress</name>
       <value>true</value>
</property>
<property>         
		<name>mapreduce.output.fileoutputformat.compress.type</name>
        <value>RECORD</value>
</property>
 <property>        
 		<name>mapreduce.output.fileoutputformat.compress.codec</name>
        <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>