Spark基础03 RDD算子02 转换算子案例 distinct groupByKey flatMap sortByKey join mapValues reduce fold

最新推荐文章于 2022-04-25 18:53:58 发布

湖中屋

最新推荐文章于 2022-04-25 18:53:58 发布

阅读量189

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_43139004/article/details/107601861

版权

本文介绍了Spark中的几个关键转换算子，包括distinct用于全局去重，groupByKey用于分组，flatMap进行扁平化操作，sortByKey实现排序，join用于数据合并，以及reduce和fold等聚合操作。通过这些算子，可以对RDD数据进行高效处理和转换。

摘要由CSDN通过智能技术生成

RDD
distinct 全局去重改变分区

/**

distinct 去除重复数据
是一个转换算子
全局去重改变分区
*/
object DistinctDemo {
def main(args: Array[String]): Unit = {
val sc: SparkContext = SparkUtils.getSparkContext
val seq = Seq(1, 2, 4, 5, 66, 66, 6, 5, 77, 77)
//转换成RDD
val rdd: RDD[Int] = sc.parallelize(seq, 2)

//是一个转换算子
val rdd2: RDD[Int] = rdd.distinct(3)

println(rdd.partitions.size)
println(rdd2.partitions.size)
val arr: Array[Int] = rdd2.collect()
println(arr.toBuffer)
sc.stop()
}

}

groupBy

/**

group by 分组返回[k,v]的RDD
处理[w] --> [k,iters]
处理[k,v] --> [k, iters]
*/
object GroupByDemo {
def main(args: Array[String]): Unit = {

val sc = SparkUtils.getSparkContext

val seq: Seq[String] = Seq(“a”, “b”, “c”, “d”, “e”, “f”)
val rdd1: RDD[String] = sc.parallelize(seq, 2)

//返回k Iterator
val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e) //元素的内容
val rdd3: RDD[(String, List[String])] = rdd2.map(e => {
val k = e._1
val iters: Iterable[String] = e._2
(k, iters.toList)
})
rdd3.foreach(println)

sc.stop()

}

object Wc1 {
def main(args: Array[String]): Unit = {
val sc = SparkUtils.getSparkContext

val seq: Seq[String] = Seq("a", "b", "c", "d", "e", "f")
val rdd1: RDD[String] = sc.parallelize(seq, 2)

val rdd2: RDD[String] = rdd1.flatMap(_.split("\\s+"))
val rdd3: RDD[(String, Iterable[String])] = rdd2.groupBy(e => e)

val rdd4: RDD[(String, Int)] = rdd3.map(e => {
  (e._1, e._2.size)
})
rdd4.foreach(println)

sc.stop()

}