Spark学习笔记(12)——RDD分区器

最新推荐文章于 2024-06-01 19:58:07 发布

程光CS

最新推荐文章于 2024-06-01 19:58:07 发布

阅读量268

点赞数

分类专栏： # Spark学习笔记

本文链接：https://blog.csdn.net/m0_56602092/article/details/119446670

版权

Spark学习笔记专栏收录该内容

15 篇文章 5 订阅

订阅专栏

本文介绍了Spark中RDD的分区策略，包括默认的Hash分区和Range分区，以及如何自定义分区器。Hash分区通过key的hashCode进行分区，而Range分区则确保数据在分区间的分布更均匀且有序。自定义分区器需要继承Partitioner接口并重写相关方法。示例展示了如何使用自定义分区器对RDD进行分区。

摘要由CSDN通过智能技术生成

在RDD的创建中我们知道在创建一个RDD时数据是自动划分到各个分区的，然后可以通过shuffle操作按特定的规则再将数据重新划分到各个分区，那么我们能不能在创建RDD时就指定数据划分的规则呢？

Spark 目前支持 Hash 分区和 Range 分区，和用户自定义分区。Hash 分区为当前的默认分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区，进而决定了 Reduce 的个数。
➢ 只有 Key-Value 类型的 RDD 才有分区器，非 Key-Value 类型的 RDD 分区器的值是 None
➢ 每个 RDD 的分区 ID 范围：0 ~ (numPartitions - 1)，决定这个值是属于哪个分区的。

一、Hash 分区

对于给定的 key，计算其 hashCode,并除以分区个数取余

二、Range 分区

将一定范围内的数据映射到一个分区中，尽量保证每个分区数据均匀，而
且分区间有序

三、自定义分区器

自定义分区器需要继承Partitioner接口，然后重写两个方法

  /**
    * 自定义分区器
    * 1. 继承Partitioner
    * 2. 重写方法
    */
  class MyPartitioner extends Partitioner{
    // 分区数量
    override def numPartitions: Int = 3

    // 根据数据的key值返回数据所在的分区索引（从0开始）
    override def getPartition(key: Any): Int = {
      key match {
        case "nba" => 0
        case "wnba" => 1
        case _ => 2
      }
    }
  }

使用分区器，调用rdd的partitionBy方法

val rdd = sc.makeRDD(List(
      ("nba", "xxxxxxxxx"),
      ("cba", "xxxxxxxxx"),
      ("wnba", "xxxxxxxxx"),
      ("nba", "xxxxxxxxx"),
    ),3)
val partRDD: RDD[(String, String)] = rdd.partitionBy( new MyPartitioner )