spark分区（partitionby方法）基于词频统计

最新推荐文章于 2024-08-04 01:04:49 发布

·惊鸿

最新推荐文章于 2024-08-04 01:04:49 发布

阅读量624

点赞数

分类专栏： # Scala 文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_40608132/article/details/124959960

版权

Scala 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

spark分区（partiionby方法）

为什么要定义分区?
定义分区类
- 继承的类
- 重写的方法
项目结构
local的分区数比我们自定义的分区类低，也就是优先按照自定义分区类分区

为什么要定义分区?

在分布式程序中，数据通信会增加非常大的开销，spark可以控制分区来减少通信的开销

定义分区类

继承的类

Partitioner

重写的方法

numPartitions：分区的数量
getPartition ：用于对key进行处理并返回相应的分区id

项目结构

源数据

在这里插入图片描述

主程序

package com.cqcvc.spark
import org.apache.spark.{SparkConf, SparkContext}
object WordCountpartitioner {
  def main(args: Array[String]): Unit = {
    //实例化 sparkconf对象
    val conf =new SparkConf().setAppName("词频统计分区").setMaster("local[*]")
    //实例化sparkcontext对象
    val sc = new SparkContext(conf)
    val data = sc.textFile("D:/专业文件/Spark/Wordcount.txt")
    //partitionBy
    data.flatMap(line=>line.split(" ")).map(elem=>(elem,1)).reduceByKey( (v1,v2)=>(v1+v2)).sortBy(elem=>elem._2,false).partitionBy(new SelfPartitioner).saveAsTextFile("D:/专业文件/Spark/wordcount")
  }

}

partition类（分区功能）

package com.cqcvc.spark

import org.apache.spark.Partitioner

class SelfPartitioner extends Partitioner{
  override def numPartitions: Int = 2

  override def getPartition(key: Any): Int = {
    if (key.toString.startsWith("H") || key.toString.startsWith("h"))
      {
        //返回的是分区的id
        return 0
      }
      return 1
    }

}