spark分区(partitionby方法)基于词频统计

为什么要定义分区?

在分布式程序中, 数据通信会增加非常大的开销,spark可以控制分区来减少通信的开销

定义分区类

继承的类

Partitioner

重写的方法

numPartitions: 分区的数量
getPartition :用于对key进行处理 并返回相应的分区id

项目结构

源数据

在这里插入图片描述

主程序

package com.cqcvc.spark
import org.apache.spark.{SparkConf, SparkContext}
object WordCountpartitioner {
  def main(args: Array[String]): Unit = {
    //实例化 sparkconf对象
    val conf =new SparkConf().setAppName("词频统计分区").setMaster("local[*]")
    //实例化sparkcontext对象
    val sc = new SparkContext(conf)
    val data = sc.textFile("D:/专业文件/Spark/Wordcount.txt")
    //partitionBy
    data.flatMap(line=>line.split(" ")).map(elem=>(elem,1)).reduceByKey( (v1,v2)=>(v1+v2)).sortBy(elem=>elem._2,false).partitionBy(new SelfPartitioner).saveAsTextFile("D:/专业文件/Spark/wordcount")
  }

}

partition类(分区功能)

package com.cqcvc.spark

import org.apache.spark.Partitioner

class SelfPartitioner extends Partitioner{
  override def numPartitions: Int = 2

  override def getPartition(key: Any): Int = {
    if (key.toString.startsWith("H") || key.toString.startsWith("h"))
      {
        //返回的是分区的id
        return 0
      }
      return 1
    }

}

结果:

两个分区:
在这里插入图片描述
按照分区类,将h,H打头的放在一个分区里面:
在这里插入图片描述
其他的数据放在另外一个分区:
在这里插入图片描述

local的分区数比我们自定义的分区类低,也就是优先按照自定义分区类分区

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

·惊鸿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值