spark自定义分区器

最新推荐文章于 2024-08-19 09:32:22 发布

月笼纱lhz

最新推荐文章于 2024-08-19 09:32:22 发布

阅读量350

点赞数

分类专栏： spark大数据分析文章标签： spark big data

本文链接：https://blog.csdn.net/weixin_39732131/article/details/120737267

版权

spark大数据分析专栏收录该内容

46 篇文章 2 订阅

订阅专栏

该博客介绍如何模仿Spark自带的分区器，自定义一个分区器。通过创建`MyPartitioner`类，继承`Partitioner`并重写`numPartitions`和`getPartition`方法，实现了根据Key值将数据分配到特定分区的功能。示例代码中，`s`关键字的数据被放在第一个分区，`words`在第二个，其余的在第三个分区。最后，使用自定义分区器的RDD被保存为文本文件。

摘要由CSDN通过智能技术生成

/**
 * !!!!!
 * 模仿自带分区器，自定义分区器
 * 自定义，哪个分区放什么数据
 */
object Test{
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount")
    val sc: SparkContext = new SparkContext(sparkConf)
    val rdd = sc.makeRDD(List(//希望s放一个分区，其他各放一个分区
      ("s","XXX"),
      ("makeup","XXX"),
      ("words","XXX"),
      ("s","XXX")
    ),2)//这里暂定了分区，后续可以改变


    val partRdd = rdd.partitionBy(new MyPartitioner)
    partRdd.saveAsTextFile("output")//output中3个文件
    sc.stop()
  }

  /**
   * 自定义分区器
   * 1.继承Partitioner
   * 2.重写方法
   */
  class MyPartitioner extends Partitioner{
    //分区数量
    override def numPartitions: Int = 3
    //根据数据的Key值返回数据的分区索引，从0开始
    override def getPartition(key: Any): Int = {
      key match{
        case "s" =>0
        case "words"=>1
        case _ =>2
      }
    }
  }
}