MapReduce 原理 shuffle过程处理数据倾斜

最新推荐文章于 2023-03-24 10:36:57 发布

abcdggggggg

最新推荐文章于 2023-03-24 10:36:57 发布

阅读量358

点赞数 1

分类专栏：大数据 Hadoop 文章标签： mapreduce hadoop shuffle 数据倾斜 mapreduce原理

本文链接：https://blog.csdn.net/qq_35260875/article/details/106148597

版权

大数据同时被 2 个专栏收录

46 篇文章 4 订阅

订阅专栏

Hadoop

10 篇文章 0 订阅

订阅专栏

1.简介

MapReduce是一个分布式编程的计算框架，是一个将分布式计算抽象为Map（映射）和Reduce（归约）两个阶段的编程模型

2.MapReduce执行流程

MapReduce的执行过程主要包含四个阶段：Split阶段、Map阶段、Shuffle阶段和Reduce阶段

（1）split阶段

将输入的大文件进行split，每个输入分片(input split)针对一个map任务。

输入分片(input split)存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。

（2）map阶段

map阶段就是需要我们自己编写的map函数。对输入分片中的每个键值对去调用map()函数进行运算，然后输出一个结果键值对

（3）shuffle阶段

shuffle阶段主要负责将map端生成的数据传递给reduce端，因此shuffle分为在map端的过程和在reduce端的执行过程。

map端：

对map的输出进行partition，其中一个partition对应一个reduce，默认通过键值对的key取hash值%reduce，也可以进行自定义分区
把map的结果数据写入到Memory Buffer(内存缓冲区)，当缓冲区满80%之后，启动溢写（spill），将数据写入到磁盘中，同时根据key排序(sort)，如果有combiner步骤，则会对相同的key做归并处理，最终多个溢写文件合并（merge）为一个文件。

reduce端：

Reduce端启动一些copy线程，从各个map端拉取数据放到Memory Buffer(内存缓冲区)，同理将数据进行合并并存到磁盘，最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。

（4）reduce阶段

reduce对shuffle阶段传来的数据进行最后的整理合并

3.MapReduce使用Partitioner接口处理数据倾斜

MapReduce提供Partitioner接口，它的作用就是根据key取hash值对reduce的数量取模，来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力，如果用户自己对Partitioner有需求，可以订制并设置到job上。

用hadoop程序进行数据关联时，常碰到数据倾斜的情况，这里提供一种解决方法。

源代码：
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
修改后：
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return ((（key).hashCode()+value.hashCode()） & Integer.MAX_VALUE) % numReduceTasks;
  }

优化常用手段：

减少job数（合并MapReduce，用Multi-group by）
设置合理的task数，能有效提升性能
数据量大，慎用count（distinct）
对小文件进行合并

参考：https://www.jianshu.com/p/93410ea20ec7

abcdggggggg

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce 原理 shuffle过程处理数据倾斜

参考：https://www.jianshu.com/p/93410ea20ec71.简介MapReduce是一个分布式编程的计算框架，是一个将分布式计算抽象为Map（映射）和Reduce（归约）两个阶段的编程模型2.MapReduce执行流程MapReduce的执行过程主要包含四个阶段：Split阶段、Map阶段、Shuffle阶段和Reduce阶段（1）split阶段将输入的大文件进行split，每个输入分片(input split)针对一个map任务。输...
复制链接

扫一扫