Spark RDD之Partitioner

最新推荐文章于 2023-12-31 23:59:54 发布

pre_tender

最新推荐文章于 2023-12-31 23:59:54 发布

阅读量307

点赞数

分类专栏： Saprk

本文链接：https://blog.csdn.net/pre_tender/article/details/100902267

版权

Saprk 专栏收录该内容

47 篇文章 8 订阅

订阅专栏

文章目录

概要
Partitioner作用
Partitioner定义
- - 1. HashPartitioner
  - 2. RangePartitioner
Partitioner使用
自定义Partitioner
调整Partitioner
总结

概要

Spark RDD主要由Dependency、Partition、Partitioner组成，这篇介绍最后一部分Partitioner。
Partition记录了数据split的逻辑，Dependency记录的是transformation操作过程中Partition的演化，Partitioner是shuffle过程中key重分区时的策略，即计算key决定k-v属于哪个分区。

Partitioner作用

Partitioner是在shuffle阶段起作用，无论对于mapreduce还是spark，shuffle都是重中之重，因为shuffle的性能直接影响着整个程序，先了解下shuffle：详细探究Spark的shuffle实现，图片也来自此博客(侵删)，shuffle涉及到网络开销及可能导致的数据倾斜问题，是调优关注的重点。
在这里插入图片描述

首先每一个Mapper会根据Reducer的数量创建出相应的bucket，bucket的数量是(M \times R)，其中(M)是Map的个数，(R)是Reduce的个数。
其次Mapper产生的结果会根据设置的partition算法填充到每个bucket中去。这里的partition算法是可以自定义的，当然默认的算法是根据key哈希到不同的bucket中去。
当Reducer启动时，它会根据自己task的id和所依赖的Mapper的id从远端或是本地的block manager中取得相应的bucket作为Reducer的输入进行处理。

这里的bucket是一个抽象概念，在实现中每个bucket可以对应一个文件，可以对应文件的一部分或是其他等。

如上图，在shuffle中，map阶段处理结果使用ShuffleWriter，根据Partitioner逻辑写到不同bucket中，不同的bucket后续被不同的reducer使用，源码如下：
在这里插入图片描述
上图是HashShuffleWriter中的write方法实现，图中圈出了Partitioner发挥作用的代码，shuffle的实现又分为HashShuffleManager和SortShuffleManager，会在后续shuffle阶段详解。
至此，我们对Partitioner有了初步的了解，其在shuffle阶段发挥作用，依据Partitioner的逻辑计算key，得出对应的k-v属于哪个分区。

Partitioner定义

在这里插入图片描述
抽象类Partitioner，定义了两个抽象方法numPartitions和getPartition，如上图所示

在这里插入图片描述
Partitioner的伴生对象定义了defaultPartitioner方法，实现了类似cogroup这类操作，如何从父RDD中选择Partitioner，逻辑如图中所示，Partitioner实现有两个，如下：

1. HashPartitioner

在这里插入图片描述
numPartitions方法返回传入的分区数，getPartition方法，使用key的hashCode值对分区数取模得到PartitionId，结合第一幅图，写入到对应的bucket中。java中的hashmap和mapreduce的HashPartitioner也类似，细节处不同，如hashmap不是取模，是通过&实现的。

2. RangePartitioner

RangePartitioner的实现较HashPartitioner复杂，单独整理，查看这里。

Partitioner使用

使用Partitioner必须满足两个前提，1、RDD是k-v形式，如RDD[(K, V)]，2、有shuffle操作。常见的触发shuffle的操作有：
1.combineByKey(groupByKey, reduceByKey , aggregateByKey)
2. sortByKey
3. join(leftOuterJoin, rightOuterJoin, fullOuterJoin)
4. cogroup
5. repartition(coalesce(shuffle=true))
6. groupWith
7. repartitionAndSortWithinPartitions

自定义Partitioner

上面我们已给出了Partitioner的定义，只需根据需求实现两个抽象方法，下面的例子我们以key的长度进行分区

class CustomPartitioner(partitions: Int) extends Partitioner {

  def numPartitions: Int = partitions

  def getPartition(key: Any): Int = {
    val k = key.asInstanceOf[String]
    return k.length() & (partitions -1)
  }
}

调整Partitioner

    val data = sc.parallelize(List("a c", "a b", "bb c", "bb d", "c d"), 2)
    data.flatMap(_.split(" ")).map((_, 1))
      .partitionBy(new CustomPartitioner(2)).reduceByKey(_ + _)
        .collect()

使用partitionBy调整Partitioner，传入我们自定义的Partitioner，通过web UI查看执行细节
在这里插入图片描述
从上图可以看出，长度为1的8条数据经过k.length() & (partitions -1)处理写到Partition 1中(1 & (2-1) ==1)，长度为2的两条数据写入到Partition 0中。

总结

简要介绍了Partitioner的作用，通过源码了解Partitioner的两个实现类，并举了使用自定义Partitioner的例子。最为重要的，Partitioner要发挥作用必须满足的两个前提：RDD[(K, V)和shuffle操作。此外，自定义Partitioner也是解决数据倾斜问题的手段之一。