SPARK RDD分区器

数据求学家

已于 2022-02-27 19:37:56 修改

阅读量99

点赞数

分类专栏：大数据开发 spark 文章标签： scala big data hadoop

于 2022-02-27 19:37:18 首次发布

本文链接：https://blog.csdn.net/weixin_36040866/article/details/123168860

版权

大数据开发同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

spark

6 篇文章 0 订阅

订阅专栏

Spark目前支持Hash分区和Range分区，和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区，进而决定了Reduce的个数。

只有Key-Value类型的RDD才有分区器，非Key-Value类型的RDD分区的值是None
每个RDD的分区ID范围：0 ~ (numPartitions - 1)，决定这个值是属于那个分区的。

1) Hash分区：对于给定的key，计算其hashCode,并除以分区个数取余

2) Range分区：将一定范围内的数据映射到一个分区中，尽量保证每个分区数据均匀，而且分区间有序

3）自定义分区：

def main(args: Array[String]): Unit = {
     val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")
     val sc = new SparkContext(sparConf)

     val rdd = sc.makeRDD(List(
            ("nba", "xxxxxxxxx"),
            ("cba", "xxxxxxxxx"),
            ("wnba", "xxxxxxxxx"),
            ("nba", "xxxxxxxxx"),
       ),3)
     val partRDD: RDD[(String, String)] = rdd.partitionBy( new MyPartitioner )

     partRDD.saveAsTextFile("output")

     sc.stop()
    }

    /**
      * 自定义分区器
      * 1. 继承Partitioner
      * 2. 重写方法
      */

class MyPartitioner extends Partitioner{
     // 分区数量
     override def numPartitions: Int = 3

     // 根据数据的key值返回数据所在的分区索引（从0开始）
     override def getPartition(key: Any): Int = {
         key match {
                case "nba" => 0
                case "wnba" => 1
                case _ => 2
            }
      }
}