Spark学习笔记(12)——RDD分区器

本文介绍了Spark中RDD的分区策略,包括默认的Hash分区和Range分区,以及如何自定义分区器。Hash分区通过key的hashCode进行分区,而Range分区则确保数据在分区间的分布更均匀且有序。自定义分区器需要继承Partitioner接口并重写相关方法。示例展示了如何使用自定义分区器对RDD进行分区。
摘要由CSDN通过智能技术生成

RDD的创建中我们知道在创建一个RDD时数据是自动划分到各个分区的,然后可以通过shuffle操作按特定的规则再将数据重新划分到各个分区,那么我们能不能在创建RDD时就指定数据划分的规则呢?

Spark 目前支持 Hash 分区和 Range 分区,和用户自定义分区。Hash 分区为当前的默认分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区,进而决定了 Reduce 的个数。
➢ 只有 Key-Value 类型的 RDD 才有分区器,非 Key-Value 类型的 RDD 分区器的值是 None
➢ 每个 RDD 的分区 ID 范围:0 ~ (numPartitions - 1),决定这个值是属于哪个分区的。

一、Hash 分区

对于给定的 key,计算其 hashCode,并除以分区个数取余

二、Range 分区

将一定范围内的数据映射到一个分区中,尽量保证每个分区数据均匀,而
且分区间有序

三、自定义分区器

自定义分区器需要继承Partitioner接口,然后重写两个方法

  /**
    * 自定义分区器
    * 1. 继承Partitioner
    * 2. 重写方法
    */
  class MyPartitioner extends Partitioner{
    // 分区数量
    override def numPartitions: Int = 3

    // 根据数据的key值返回数据所在的分区索引(从0开始)
    override def getPartition(key: Any): Int = {
      key match {
        case "nba" => 0
        case "wnba" => 1
        case _ => 2
      }
    }
  }

使用分区器,调用rdd的partitionBy方法

val rdd = sc.makeRDD(List(
      ("nba", "xxxxxxxxx"),
      ("cba", "xxxxxxxxx"),
      ("wnba", "xxxxxxxxx"),
      ("nba", "xxxxxxxxx"),
    ),3)
val partRDD: RDD[(String, String)] = rdd.partitionBy( new MyPartitioner )
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值