Spark core之分区器Partitioner

最新推荐文章于 2021-05-27 16:31:55 发布

Empty-cup

最新推荐文章于 2021-05-27 16:31:55 发布

阅读量126

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_17310871/article/details/103438647

版权

Spark 专栏收录该内容

28 篇文章 2 订阅

订阅专栏

spark中有两种分区器：HashPartitioner和RangePartitioner，分别用于根据RDD中key的hashcode值进行分区以及根据范围进行数据分区，默认HashPartitioner。

object PartitionerApp {
  def main(args: Array[String]): Unit = {
    val sc = ContextUtils.getSparkContext(this.getClass.getSimpleName)
    val data = sc.parallelize(List(1,2,3,4,5,6,30,100,300,400,500),3)
    data.zipWithIndex()
      //.groupByKey()
      .sortByKey()
      .mapPartitionsWithIndex((index, partition)=>{
        partition.map(x=>s"分区是$index, 元素是${x._1}")
      }).printInfo()
    sc.stop()
  }
}

总结：
groupByKey底层采用的分区器是HashPartitioner；
sortByKey底层采用的分区器是RangePartitioner。
分区策略都一样。

分区策略：同Kafka分区策略，每个分区的元素个数算法：如 11 % 3 = 2，余下两个元素分给前两个分区，即第一个分区有4个元素，第二个分区有4个元素，第三个分区有3个元素。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Empty-cup

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark core之分区器Partitioner

spark中有两种分区器：HashPartitioner和RangePartitioner，分别用于根据RDD中key的hashcode值进行分区以及根据范围进行数据分区，默认HashPartitioner。object PartitionerApp { def main(args: Array[String]): Unit = { val sc = ContextUtils.get...
复制链接

扫一扫