spark 自定义Partitioner

在对RDD数据进行分区时,默认使用的是 HashPartitioner,该partitioner对key进行哈希,然后mod 上分区数目,mod的结果相同的就会被分到同一个partition中
如果嫌HashPartitioner 功能单一,可以自定义partitioner

自定义partitioner

1.继承org.apache.spark.Partitioner
2.重写numPartitions方法
3.重写getPartition方法

举个例子

有一些RDD数据,要根据其key的长短来分partition,比如key="a"的都存在一个partition中
可以这样写

class Mypartitioner1(val num:Int) extends org.apache.spark.Partitioner{
  override def numPartitions: Int = num
  override def getPartition(key: Any): Int = {
      val len  =key.toString.length
      len % num
  }
}

def main(args: Array[String]): Unit = {
      val spark =SparkSession.builder().config(new SparkConf()).getOrCreate()
      val sc =spark.sparkContext
      val data =sc.parallelize(Array(
        ("aaa",2),("aaa",3),("aaa",1),("aaa",0),("aaa",4),
        ("aa",2),("aa",3),("aa",1),("aa",0),("aa",4),
        ("a",2),("a",3),("a",1),("a",0),("a",4)
      ))
       data.partitionBy(new Mypartitioner2(3))
      .saveAsTextFile("develop/wangdaopeng/lab1")

mod方法太泛了,如果想精确点可以这么写

class Mypartitioner2( num:Int) extends org.apache.spark.Partitioner{
  override def numPartitions: Int = num

  override def getPartition(key: Any): Int = {
      if(key.toString.size == 3){
           2
      }
      else if(key.toString.size == 2){
         1
      }
      else {
        0
      }
  }
}

要注意这里的0 1 2为分区的ID,范围一定是0到numPartitions-1,不然会报异常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值