mapreduce------shuffle过程解析

最新推荐文章于 2023-04-02 16:53:55 发布

小张小张永远不慌

最新推荐文章于 2023-04-02 16:53:55 发布

阅读量483

点赞数

分类专栏： MapReduce

本文链接：https://blog.csdn.net/weixin_42871236/article/details/102961121

版权

本文详细解析MapReduce的核心步骤——shuffle过程，包括map端和reduce端的shuffle。shuffle涉及分区、分组、排序，以及从内存到磁盘的数据处理。在map端，数据先在内存缓冲区预排序，满后写入磁盘；最后合并生成已分区且已排序的文件。reduce端则负责从map端拉取数据，再次进行合并排序。整个shuffle过程对MapReduce的性能至关重要。

摘要由CSDN通过智能技术生成

Mapreduce程序分为五个阶段：
input
map
shuffle
reduce
output
其中shuffle是Mapreduce的核心，它的主要职责是把map的输出结果有效的·传送到reduce端。其过程分为map端和reduce端的操作。对shuffle过程的理解尤为重要，mapreduce的优化通常是对shuffle过程进行优化，shuffle过程在面试中也会经常问到。

对shuffle过程讲解之前，我们先具体说以下，它实现的功能

分区
决定当前的key交给哪个reduce进行处理，其中相同的key必须由同一个reduce进行处理，在reduce中一个默认的分区函数式是使用hash方法。常见的方法使用hash(key)mod R 进行取模运算，以此决定该记录将被分区到哪个reduce节点。hash方法能够产生比较平衡的分区。下面是mapreduce默认的分区方法

    public class HashPartitioner<K, V> extends Partitioner<K, V> {
   
 
  /** Use {@link Object#hashCode()} to partition. */
  public int getPartition(K key, V value,

最低0.47元/天解锁文章

小张小张永远不慌

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
mapreduce------shuffle过程解析

Mapreduce程序分为五个阶段：inputmapshufflereduceoutput其中shuffle是Mapreduce的核心，它的主要职责是把map的输出结果有效的·传送到reduce端。其过程分为map端和reduce端的操作。对shuffle过程的理解尤为重要，mapreduce的优化通常是对shuffle过程进行优化，shuffle过程在面试中也会经常问到。对shuf...
复制链接

扫一扫

专栏目录