spark源码分析九(SparkEnv shuffleManager)

最新推荐文章于 2022-11-01 18:15:28 发布

AngelaPotato

最新推荐文章于 2022-11-01 18:15:28 发布

阅读量306

点赞数

分类专栏： Spark 文章标签： Shuffle ShuffleManager spark sparkEnv

本文链接：https://blog.csdn.net/wangxilong1991/article/details/111240000

版权

SparkEnv

源码版本2.4.7

shufflemanager实例是SortShuffleManager spark数据shuffle读写是通过
SparkEnv.get.shuffleManager控制完成的
shuffleRdd的compute —>SparkEnv.get.shuffleManager.getReader
shuffleMaptask的write —>SparkEnv.get.shuffleManager.getWriter

shufflerdd->getDependencies->new ShuffleDependency->registerShuffle

  // Let the user specify short names for shuffle managers
    val shortShuffleMgrNames = Map(
      "sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName,
      "tungsten-sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName)
    val shuffleMgrName = conf.get("spark.shuffle.manager", "sort")
    val shuffleMgrClass =
      shortShuffleMgrNames.getOrElse(shuffleMgrName.toLowerCase(Locale.ROOT), shuffleMgrName)
    val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)

 override def getDependencies: Seq[Dependency[_]] = {
   
    val serializer = userSpecifiedSerializer.getOrElse {
   
      val serializerManager = SparkEnv.get.serializerManager
      if (mapSideCombine) {
   
        serializerManager.getSerializer(implicitly[ClassTag[K]], implicitly[ClassTag[C]])
      } else {
   
        serializerManager.getSerializer(implicitly[ClassTag[K]], implicitly[ClassTag[V]])
      }
    }
    List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
  }
//ShuffleDependency
  val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle(
    shuffleId, _rdd.partitions.length, this)
  /**
   * Obtains a [[ShuffleHandle]] to pass to tasks.
   */
  override def registerShuffle[K, V, C](
      shuffleId: Int,
      numMaps: Int,
      dependency: ShuffleDependency[K, V, C]): ShuffleHandle = {
   
    if (SortShuffleWriter.shouldBypassMergeSort(conf, dependency)) {
   
      // If there are fewer than spark.shuffle.sort.bypassMergeThreshold partitions and we don't
      // need map-side aggregation, then write numPartitions files directly and just concatenate
      // them at the end. This avoids doing serialization and deserialization twice to merge
      // together the spilled files, which would happen with the normal code path. The downside is
      // having multiple files open at a time and thus more memory allocated to buffers.
      new BypassMergeSortShuffleHandle[K, V](
        shuffleId, numMaps, dependency.asInstanceOf[ShuffleDependency[K, V, V]])
    } else if (SortShuffleManager.canUseSerializedShuffle(dependency)) {
   
      // Otherwise, try to buffer map outputs in a serialized form, since this is more efficient:
      new SerializedShuffleHandle[K, V](
        shuffleId, numMaps, dependency.asInstanceOf[ShuffleDependency[K, V, V]])
    } else {
   
      // Otherwise, buffer map outputs in a deserialized form:
      new BaseShuffleHandle(shuffleId, numMaps, dependency)
    }
  }

shuffle有三种处理器:

BypassMergeSortShuffleHandle
map端无聚合,且分区数少于默认200
分区数不大且不需要map端聚合,直接溢写分区文件,避免合并溢写文件序列化、反序列化操作,缺点open many files 需要更多的内存缓冲

  def shouldBypassMergeSort(conf: SparkConf, dep: ShuffleDependency[_, _, _]): Boolean = {
   
    // We cannot bypass sorting if we need to do map-side aggregation.
    if (dep.mapSideCombine) {
   
      false
    } else {
   
      val bypassMergeThreshold: Int = conf.getInt("spark.shuffle.sort.bypassMergeThreshold", 200)
      dep.partitioner.numPartitions <= bypassMergeThreshold
    }

SerializedShuffleHandle
serializer参数支持relocation–>KryoSerializer,
支持relocation是指，Serializer可以对已经序列化的对象进行排序，这种排序起到的效果和先对数据排序再序列化一致。
支持relocation的Serializer是KryoSerializer
且map端不聚合,分区数少于16777216
序列化的方式缓冲map输出,效率会高一些

  /**
   * Helper method for determining whether a shuffle should use an optimized serialized shuffle
   * path or whether it should fall back to the original path that operates on deserialized objects.
   */
  def canUseSerializedShuffle(dependency: ShuffleDependency[_, _, _]): Boolean = {
   
    val shufId = dependency.shuffleId
    val numPartitions = dependency.partitioner.numPartitions
    if (!dependency.serializer.supportsRelocationOfSerializedObjects) {
   
      log.debug(s"Can't use serialized shuffle for shuffle $shufId because the serializer, " +
        s"${dependency.serializer.getClass.getName}, does not support object relocation")
      false
    } else if (dependency.mapSideCombine) {
   
      log.debug(s"Can't use serialized shuffle for shuffle $shufId because we need to do " +
        s"map-side aggregation")
      false
    } else if (numPartitions > MAX_SHUFFLE_OUTPUT_PARTITIONS_FOR_SERIALIZED_MODE) {
   
      log.debug(s"Can't use serialized shuffle for shuffle $shufId because it has more than " +
        s"$MAX_SHUFFLE_OUTPUT_PARTITIONS_FOR_SERIALIZED_MODE partitions")
      false
    } else {
   
      log.debug(s"Can use serialized shuffle for shuffle $shufId")
      true
    }
  }

BaseShuffleHandle
以反序列化形式缓冲
即序列化的数据不支持排序

看ShuffleMapTask的runTask

override def runTask(context: TaskContext): MapStatus = {
   
    // Deserialize the RDD using the broadcast variable.
    val threadMXBean = ManagementFactory.getThreadMXBean
    val deserializeStartTime = System.currentTimeMillis()
    val deserializeStartCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
   
      threadMXBean.getC

最低0.47元/天解锁文章

AngelaPotato

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark源码分析九(SparkEnv shuffleManager)

SparkEnv源码版本2.4.7shufflemanager实例是SortShuffleManagerspark数据shuffle读写是通过 SparkEnv.get.shuffleManager控制完成的shuffleRdd的compute是通过SparkEnv.get.shuffleManager.getReader而shuffleMaptask的write也是通过SparkEnv.get.shuffleManager.getWritershufflerdd->getDependen
复制链接

扫一扫