MapReduce 原理 shuffle过程 处理数据倾斜

 

1.简介

MapReduce是一个分布式编程的计算框架,是一个将分布式计算抽象为Map(映射)和Reduce(归约)两个阶段的编程模型
 

2.MapReduce执行流程

MapReduce的执行过程主要包含四个阶段:Split阶段、Map阶段、Shuffle阶段和Reduce阶段
(1)split阶段
  将输入的大文件进行split,每个输入分片(input split)针对一个map任务。
  输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。
    
(2)map阶段
  map阶段就是需要我们自己编写的map函数。对输入分片中的每个键值对去调用map()函数进行运算,然后输出一个结果键值对
 
(3)shuffle阶段
  shuffle阶段主要负责将map端生成的数据传递给reduce端,因此shuffle分为在map端的过程和在reduce端的执行过程。
map端:
  • 对map的输出进行partition,其中一个partition对应一个reduce,默认通过键值对的key取hash值%reduce,也可以进行自定义分区
  • 把map的结果数据写入到Memory Buffer(内存缓冲区),当缓冲区满80%之后,启动溢写(spill),将数据写入到磁盘中,同时根据key排序(sort),如果有combiner步骤,则会对相同的key做归并处理,最终多个溢写文件合并(merge)为一个文件。
reduce端:
  • Reduce端启动一些copy线程,从各个map端拉取数据放到Memory Buffer(内存缓冲区),同理将数据进行合并并存到磁盘,最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。
 
(4)reduce阶段
reduce对shuffle阶段传来的数据进行最后的整理合并
 

3.MapReduce使用Partitioner接口处理数据倾斜

  MapReduce提供Partitioner接口,它的作用就是根据key取hash值对reduce的数量取模,来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力,如果用户自己对Partitioner有需求,可以订制并设置到job上。
用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法。
源代码:
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
修改后:
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (((key).hashCode()+value.hashCode()) & Integer.MAX_VALUE) % numReduceTasks;
  }
 
优化常用手段:
  • 减少job数(合并MapReduce,用Multi-group by)
  • 设置合理的task数,能有效提升性能
  • 数据量大,慎用count(distinct)
  • 对小文件进行合并

参考:https://www.jianshu.com/p/93410ea20ec7

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值