在RDD的创建中我们知道在创建一个RDD时数据是自动划分到各个分区的,然后可以通过shuffle操作按特定的规则再将数据重新划分到各个分区,那么我们能不能在创建RDD时就指定数据划分的规则呢?
Spark 目前支持 Hash 分区和 Range 分区,和用户自定义分区。Hash 分区为当前的默认分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区,进而决定了 Reduce 的个数。
➢ 只有 Key-Value 类型的 RDD 才有分区器,非 Key-Value 类型的 RDD 分区器的值是 None
➢ 每个 RDD 的分区 ID 范围:0 ~ (numPartitions - 1),决定这个值是属于哪个分区的。
一、Hash 分区
对于给定的 key,计算其 hashCode,并除以分区个数取余
二、Range 分区
将一定范围内的数据映射到一个分区中,尽量保证每个分区数据均匀,而
且分区间有序
三、自定义分区器
自定义分区器需要继承Partitioner接口,然后重写两个方法
/**
* 自定义分区器
* 1. 继承Partitioner
* 2. 重写方法
*/
class MyPartitioner extends Partitioner{
// 分区数量
override def numPartitions: Int = 3
// 根据数据的key值返回数据所在的分区索引(从0开始)
override def getPartition(key: Any): Int = {
key match {
case "nba" => 0
case "wnba" => 1
case _ => 2
}
}
}
使用分区器,调用rdd的partitionBy方法
val rdd = sc.makeRDD(List(
("nba", "xxxxxxxxx"),
("cba", "xxxxxxxxx"),
("wnba", "xxxxxxxxx"),
("nba", "xxxxxxxxx"),
),3)
val partRDD: RDD[(String, String)] = rdd.partitionBy( new MyPartitioner )