Shuffle阶段详细解读

最新推荐文章于 2024-08-01 08:57:51 发布

缘定三石

最新推荐文章于 2024-08-01 08:57:51 发布

阅读量7.9k

点赞数 2

分类专栏： Hadoop实战文章标签： hadoop mapreduce Shuffer

本文链接：https://blog.csdn.net/tian_qing_lei/article/details/77803883

版权

Hadoop实战专栏收录该内容

46 篇文章 1 订阅

订阅专栏

 
 Shuffle阶段说明 

  shuffle阶段主要包括map阶段的combine、group、sort、partition以及reducer阶段的合并排序。Map阶段通过shuffle后会将输出数据按照reduce的分区分文件的保存，文件内容是按照定义的sort进行排序好的。Map阶段完成后会通知ApplicationMaster，然后AM会通知Reduce进行数据的拉取，在拉取过程中进行reduce端的shuffle过程。 

 
 注意:Map阶段的输出数据是存在运行Map节点的磁盘上，是个临时文件，不是存在HDFS上，在Reduce拉取数据后，那个临时文件会删除，若是存在hdfs上，会造成存储空间的浪费（会产生三个副本）。 

 
 用户自定义Combiner 

  Combiner可以减少Map阶段的中间输出结果数，降低网络开销。默认情况下是没有Combiner的。用户自定义的Combiner要求是Reducer的子类，以Map的输出<key,value>作为Combiner的输入<key,value>和输出<key,value>，也就是说Combiner的输入和输出必须是一样的。 

  可以通过job.setCombinerClass设置combiner的处理类，MapReduce框架不保证一定会调用该类的方法。 

  注意：如果reduce的输入和输出一样，则可以直接用reduce类作为combiner 

 
 用户自定义Partitioner 

  Partitioner是用于确定map输出的<key,value>对应的处理reducer是那个节点。默认MapReduce任务reduce个数为1个，此时Partitioner其实没有什么效果，但是当我们将reduce个数修改为多个的时候，partitioner就会决定key所对应reduce的节点序号(从0开始)。 

  可以通过job.setPartitionerClass方法指定Partitioner类，默认情况下使用HashPartitioner（默认调用key的hashCode方法）。 

 
 用户自定义Group 

  GroupingComparator是用于将Map输出的<key,value>进行分组组合成<key,List<value>>的关键类，直白来讲就是用于确定key1和key2是否属于同一组，如果是同一组，就将map的输出value进行组合。 

  要求我们自定义的类实现自接口RawComparator，可以通过job.setGroupingComparatorClass方法指定比较类。默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。 

 
 用户自定义Sort 

  SortComparator是用于将Map输出的<key,value>进行key排序的关键类， 直白来讲就是用于确定key1所属组和key2所属组那个在前，那个在后。 

  要求我们自定义的类实现自接口RawComparator，可以通过job.setSortComparatorClass方法指定比较类。默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。 

 
 用户自定义Reducer的Shuffle 

  在reduce端拉取map的输出数据的时候，会进行shuffle(合并排序)，MapReduce框架以插件模式提供了一个自定义的方式，我们可以通过实现接口ShuffleConsumerPlugin，并指定参数mapreduce.job.reduce.shuffle.consumer.plugin.class来指定自定义的shuffle规则，但是一般情况下，直接采用默认的类org.apache.hadoop.mapreduce.task.reduce.Shuffle。