1.简介
MapReduce是一个分布式编程的计算框架,是一个将分布式计算抽象为Map(映射)和Reduce(归约)两个阶段的编程模型
2.MapReduce执行流程
MapReduce的执行过程主要包含四个阶段:Split阶段、Map阶段、Shuffle阶段和Reduce阶段
(1)split阶段
将输入的大文件进行split,每个输入分片(input split)针对一个map任务。
输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。
(2)map阶段
map阶段就是需要我们自己编写的map函数。对输入分片中的每个键值对去调用map()函数进行运算,然后输出一个结果键值对
(3)shuffle阶段
shuffle阶段主要负责将map端生成的数据传递给reduce端,因此shuffle分为在map端的过程和在reduce端的执行过程。
map端:
-
对map的输出进行partition,其中一个partition对应一个reduce,默认通过键值对的key取hash值%reduce,也可以进行自定义分区
-
把map的结果数据写入到Memory Buffer(内存缓冲区),当缓冲区满80%之后,启动溢写(spill),将数据写入到磁盘中,同时根据key排序(sort),如果有combiner步骤,则会对相同的key做归并处理,最终多个溢写文件合并(merge)为一个文件。
reduce端:
-
Reduce端启动一些copy线程,从各个map端拉取数据放到Memory Buffer(内存缓冲区),同理将数据进行合并并存到磁盘,最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。
(4)reduce阶段
reduce对shuffle阶段传来的数据进行最后的整理合并
3.MapReduce使用Partitioner接口处理数据倾斜
MapReduce提供Partitioner接口,它的作用就是根据key取hash值对reduce的数量取模,来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力,如果用户自己对Partitioner有需求,可以订制并设置到job上。
用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法。
源代码:
public int getPartition(K key, V value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
修改后:
public int getPartition(K key, V value,
int numReduceTasks) {
return (((key).hashCode()+value.hashCode()) & Integer.MAX_VALUE) % numReduceTasks;
}
优化常用手段:
-
减少job数(合并MapReduce,用Multi-group by)
-
设置合理的task数,能有效提升性能
-
数据量大,慎用count(distinct)
-
对小文件进行合并