整体流程:
第一步:客户端将每一个block块进行逻辑切分,每一个切片对应一个filespilt,split包含的信息:分片的元数据信息,包含起始位置,长度,和所在节点列表等
第二步:设置map类,map类通过Textinputformat类按行读取切片信息,组成键值对k1,v1
第三步:map函数对键值对进行计算,输出<key,value,partition(分区号)>格式数据,partition指定该键值对由哪个reducer进行处理。通过分区器,key的hashcode对reducer个数取模
第四步:在环形缓冲区进行shffer
map阶段shuffle:
map将kvp都写入到自己的环形缓冲区内,环形缓冲区默认100M,阈值为80%,当到达80%的时候,就像磁盘溢写小文件。
落地的小文件先按照分区号排序,区号相同的再按照key进行局部排序,如果溢写的小文件达到三个,则进行归并,归并为大文件,大的文件也是按照分区和key进行局部排序,目的是降低中间结果数据量
此时,mapshuffle阶段处理完成,
第五步:reduce的shuffle阶段
1,:reducer启动copy线程从maptask拉取数据,先放到内存中,
2,:然后对数据进行merge
这里的merge如map端的merge动作,只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中,这里的缓冲区大小要比map端的更为灵活。merge有三种形式:内存到内存;内存到磁盘;磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值,就启动内存到磁盘的merge。与map 端类似,这也是溢写的过程,这个过程中如果你设置有Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行,直到没有map端的数据时才结束,然后启动第三种磁盘到磁盘的merge方式生成最终的文件。
3:合并排序。把分散的数据合并成一个大的数据后,还会再对合并后的数据排序
4:调用reduce逻辑方法
第六步:通过textoutputformat方法对数据进行输出
数据的压缩
MapReduce运行过程中数据的压缩
数据压缩的目的
在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多。
压缩算法的选择
首先,在Linux中cd到hadoop的安装目录,然后使用bin/hadoop checknative,查看目前支持的压缩方式,一般的hadoop不会支持全部的压缩方式,需要使用CDH版本hadoop的源码进行编译后,使用编译得到的安装包进行安装才能支持全部的压缩方式。具有工具的压缩方式需要使用yum安装。
开启压缩
方式一:在代码中进行设置压缩
public static void main(String[] args) throws Exception
{
Configuration configuration=new Configuration();
//开启map阶段的数据压缩
configuration.set("mapreduce.map.output.compress","true"); //设置压缩开启
configuration.set("mapreduce.map.output.compress.codec",
"org.apache.hadoop.io.compress.SnappyCodec"); //设置的压缩方式用到的类的源码路径,这里用Snappy压缩
//开启reduce阶段的数据压缩
configuration.set("mapreduce.output.fileoutputformat.compress","true"); //设置压缩开启
configuration.set("mapreduce.output.fileoutputformat.compress.type","RECORD"); //设置压缩方式,这里是按行记录进行压缩
configuration.set("mapreduce.output.fileoutputformat.compress.codec",
"org.apache.hadoop.io.compress.SnappyCodec"); //设置压缩方式用到的类的源码路径,这里用Snappy压缩
System.exit(ToolRunner.run(configuration,new FlowSortRun(),args));
}
方式二:配置全局的MapReduce压缩
我们可以修改mapred-site.xml配置文件,然后重启集群,以便对所有的mapreduce任务进行压缩
map输出数据进行压缩
<property>
<name>mapreduce.map.output.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.map.output.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
reduce输出数据进行压缩
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.type</name>
<value>RECORD</value>
</property>
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
所有节点都要修改mapred-site.xml,修改完成之后记得重启集群