RDD分区器

未来影子

已于 2022-03-08 22:16:00 修改

阅读量1.2k

点赞数

分类专栏： Spark 文章标签： scala spark big data

于 2022-03-08 22:15:49 首次发布

本文链接：https://blog.csdn.net/mynameisgt/article/details/123364796

版权

Spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Spark目前支持Hash分区和Range分区，和用户自定义分区。

Hash分区为当前的默认分区，分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区，进而决定了Reduce的个数。

只有Key-Value类型的RDD才有分区器，非Key-Value类型的RDD分区的值是None
每个RDD的分区ID范围：0~（numPartitions - 1），决定这个值是属于哪个分区的

1）Hash分区

对于给定的key，计算其hashCode，并除以分区个数取余

  class HashPartitioner(partitions: Int) extends Partitioner {
    
    require(partitions >= 0, s"Number of partitions ($partitions) cannot be negative.")

    def numPartitions: Int = partitions

    def getPartition(key: Any): Int = key match {
      case null => 0
      case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
    }

    override def equals(other: Any): Boolean = other match {
      case h: HashPartitioner => h.numPartitions == numPartitions
      case _ => false
    }

    override def hashCode: Int = numPartitions
  }

2）Range分区

将一定范围内的数据映射到一个分区中，尽量保证每个分区数据均匀，而且分区间有序

未来影子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD分区器

Spark目前支持Hash分区和Range分区，和用户自定义分区。Hash分区为当前的默认分区，分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区，进而决定了Reduce的个数。只有Key-Value类型的RDD才有分区器，非Key-Value类型的RDD分区的值是None每个RDD的分区ID范围：0~（numPartitions - 1），决定这个值是属于哪个分区的1）Hash分区对于给定的key，计算其hashCode，并除以分区个数取余 cla
复制链接

扫一扫