spark分区(partiionby方法)
为什么要定义分区?
在分布式程序中, 数据通信会增加非常大的开销,spark可以控制分区来减少通信的开销
定义分区类
继承的类
Partitioner
重写的方法
numPartitions: 分区的数量
getPartition :用于对key进行处理 并返回相应的分区id
项目结构
源数据
主程序
package com.cqcvc.spark
import org.apache.spark.{SparkConf, SparkContext}
object WordCountpartitioner {
def main(args: Array[String]): Unit = {
//实例化 sparkconf对象
val conf =new SparkConf().setAppName("词频统计分区").setMaster("local[*]")
//实例化sparkcontext对象
val sc = new SparkContext(conf)
val data = sc.textFile("D:/专业文件/Spark/Wordcount.txt")
//partitionBy
data.flatMap(line=>line.split(" ")).map(elem=>(elem,1)).reduceByKey( (v1,v2)=>(v1+v2)).sortBy(elem=>elem._2,false).partitionBy(new SelfPartitioner).saveAsTextFile("D:/专业文件/Spark/wordcount")
}
}
partition类(分区功能)
package com.cqcvc.spark
import org.apache.spark.Partitioner
class SelfPartitioner extends Partitioner{
override def numPartitions: Int = 2
override def getPartition(key: Any): Int = {
if (key.toString.startsWith("H") || key.toString.startsWith("h"))
{
//返回的是分区的id
return 0
}
return 1
}
}
结果:
两个分区:
按照分区类,将h,H打头的放在一个分区里面:
其他的数据放在另外一个分区: