25 Spark Sort-Based Shuffle内幕彻底解密

最新推荐文章于 2023-01-13 18:35:45 发布

tianmangshan80

最新推荐文章于 2023-01-13 18:35:45 发布

阅读量534

点赞数

分类专栏： spark

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本期内容：

1 为什么使用Sort-Based Shuffle

2 Sort-Based Shuffle 实战

3 Sort-Based Shuffle 内幕

4 Sort-Based Shuffle的不足

一、为什么需要Sort Based Shuffle？

1、 Shuffle一般包含两阶段任务；第一部分，产生Shuffle数据的阶段（map阶段）getWriter ,需要实现ShuffleManager中getWriter来写数据（数据可以BlockManager写到Memory、DIsk、Tachyon等，例如像非常快的Shuffle，此时可以考虑把数据写到内存中，但是内存不稳定，建议使用 MEMORY_AND_DISK 方式），第二阶段，使用Shuffle数据的阶段（Reduce阶段），额外补充，需要实现ShuffleManager的 getReader;

[java]view plain copy
 
   
 def registerShuffle[K, V, C](  
     shuffleId: Int,  
     numMaps: Int,  
     dependency: ShuffleDependency[K, V, C]): ShuffleHandle  
   
 def getWriter[K, V](handle: ShuffleHandle, mapId: Int, context: TaskContext): ShuffleWriter[K, V]  
   
 def getReader[K, C](  
     handle: ShuffleHandle,  
     startPartition: Int,  
     endPartition: Int,  
     context: TaskContext): ShuffleReader[K, C]  

2、如果只有一个Stage，则这个Job就是相当于只有一个Mapper阶段，当然不会产生Shuffle，适合于简单的ETL；在Spark的链条上有很多的 Stage，最后一个Stage产生阶段，最后一个Stage是倒数第二个Stage的Reducer（除了单Stage的job），最后一个Stage是Reducer，第一个 Stage一定是Mapper，中间的Stage既是Mapper也是Reducer，即第n个Stage是第n-1个Stage的Reducer，也是第n+1个Stage的Mapper。

3、Spark Shuffle在最开始的时候只支持 Hash-Based Shuffle；默认Mapper阶段会为Reducer阶段的每一个Task单独创建一个文件来保存该Task 中要使用的数据，但是在一些情况下（例如数据量非常大的情况）会造成大量的（M*R，之中M代表Mapper中所有的并行任务数量，R代表 Reducer中所有的并行任务数据）随机磁盘I/O操作且会造成大量的MEM消耗（极易造成 OOM），这是致命的，因为：

第一：不能够处理大规模的数据；

第二：Spark不能够运行在大规模的分布式集群上！后来的改善方式是加入Shuffle Consalidate机制来讲Shuffle时候产生的文件实例减少到 C*R个（C代表在Mapper端同时能够使用的Cores的数量，R代表Reducer中所有的并行任务数量），但是此时如果Reducer端的并行数据分片过多的话则C*R可能已经过大，此时依旧没有逃脱文件打开过多的厄运！

说明：Spark在引入Sort-Based Shuffle以前，比较适用于中小规模的大数据处理（Spark1.1X）

4、为了让Spark在更大规模的集群上更高性能处理更大规模的数据，于是就引入了Sort-Based Shuffle！从此以后（Spark1.1.X版本开始）， Spark可以胜任任意规模（包含PB以及以上级别的）的更大数据的处理，尤其是随着钨丝计划的引入和优化，把Spark更快的扎起更大的集群处理更加海量的数据的能力推向了一个新的巅峰！

5、Spark1.6版本支持至少三种类型的Shuffle（可以自定义，Shuffle可插拔等），实现ShuffleManager接口可以根据自己的需要更优化的自定义的Shuffle的实现。

[java]view plain copy
 
 // Let the user specify short names for shuffle managers  
  val shortShuffleMgrNames = Map(  
    "hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager",  
    "sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager",  
    "tungsten-sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager")  
  val shuffleMgrName = conf.get("spark.shuffle.manager", "sort")  
  val shuffleMgrClass = shortShuffleMgrNames.getOrElse(shuffleMgrName.toLowerCase, shuffleMgrName)  
  val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)  

6、Spark1.6默认采用的就是Sort-based Shuffle的方式：

[java]view plain copy
 
 val shuffleMgrName = conf.get("spark.shuffle.manager", "sort")  

上述的源码说明，你可以在Spark的配置文件中配置Spark框架运行时要使用的具体的ShuffleManager的实现。

修改conf/spark-default.conf加入如下内容：spark.shuffle.namager SORT

Sort-based Shuffle不会为每个Reducer中的Task生成一个单独的文件，相反，Sort-based Shuffle会把Mapper中每个ShuffleMapTask所以的输出数据Data只写到一个文件中。因为每个ShuffleMapTask中的数据会被分类，所以Sort-based Shuffle使用了Index文件存储具体ShuffleMapTask输出数据在同一个data是如何分类的信息！因此基于Sort-based 的Shuffle会在Mapper中的每一个ShuffleMapTask中产生两个文件：Data文件和Index，其中Data文件是存储当前Task的Shuffle输出的，而Index文件中存储了data文件中的数据通过partitioner的分类索引，此时下一个阶段的Stage中的Task就是根据这个Index文件获取自己所要抓取的上一个Stage中的ShuffleMapTask产生的数据的；

Sort-based Shuffle会产生2*M个文件（M代表了Mapper阶段中并行的Partition的总数量，其实就是Mapper端ShuffleMapTask的总数量）个Shuffle临时文件。

回顾整个Shuffle的历史，Shuffle产生的临时文件的数量的变化以此为：

Basic Hash Shuffle：M*R；

Consalidate 方式的Hash Shuffle：C*R；

Sort-based Shuffle：2*M；

二、在集群中动手实战Sort-based Shuffle

1、启动Hadoop HDFS

[java]view plain copy
 
 root@Master:/usr/local/hadoop/hadoop-2.6.0/sbin# ./start-dfs.sh   

2、创建目录并上传文件

[java]view plain copy
 
 root@Master:/usr/local/hadoop/hadoop-2.6.0/sbin# hadoop dfs -mkdir /library/dataForSort  

上传三个文件：

[java]view plain copy
 
 root@Master:/usr/local/hadoop/hadoop-2.6.0# hadoop dfs -put README.txt /library/dataForSort  
 DEPRECATED: Use of this script to execute hdfs command is deprecated.  
 Instead use the hdfs command for it.  
 root@Master:/usr/local/hadoop/hadoop-2.6.0# hadoop dfs -put LICENSE.txt /library/dataForSort  
 DEPRECATED: Use of this script to execute hdfs command is deprecated.  
 Instead use the hdfs command for it.  
 root@Master:/usr/local/hadoop/hadoop-2.6.0# hadoop dfs -put NOTICE.txt /library/dataForSort  
 DEPRECATED: Use of this script to execute hdfs command is deprecated.  
 Instead use the hdfs command for it.  
 root@Master:/usr/local/hadoop/hadoop-2.6.0#   

3、启动Spark：

[java]view plain copy
 
 start-all.sh                    stop-mesos-dispatcher.sh  
 start-history-server.sh         stop-mesos-shuffle-service.sh  
 start-master.sh                 stop-shuffle-service.sh  
 start-mesos-dispatcher.sh       stop-slave.sh  
 start-mesos-shuffle-service.sh  stop-slaves.sh  
 start-shuffle-service.sh        stop-thriftserver.sh  
 root@Master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/sbin# ./start-all.sh   

4、运行spark-shell

[java]view plain copy
 
 root@Master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin# ./spark-shell  

注：不指定Master，说明在local模式中运行（因为local默认在我们测试的角度讲，比较容易观察数据）

[java]view plain copy
 
 scala>sc.textFile("/library/dataForSort").flatMap(_.split(" ")).map(word =>(word,1)).reduceByKey(_+_).count  

Shuffle运行生成的中间的文件(共8个文件，data4个，index4个)：

[java]view plain copy
 
 shuffle_0_0_0.data    
 Shuffle_0_1_0.data   
 Shuffle_0_2_0.data   
 Shuffle_0_3_0.data     
 Shuffle_0_0_0.index     
 Shuffle_0_1_0.index   
 Shuffle_0_2_0.index  
 Shuffle_0_3_0.index