Spark RDD转换算子-Key-Value类型总结（2）

最新推荐文章于 2024-05-18 15:23:51 发布

hunter95671

最新推荐文章于 2024-05-18 15:23:51 发布

阅读量273

点赞数

分类专栏： spark scala 文章标签： spark java sql

本文链接：https://blog.csdn.net/hunter95671/article/details/120097237

版权

spark 同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

scala

10 篇文章 0 订阅

订阅专栏

一、combineByKey

最通用的对 key-value 型 rdd 进行聚集操作的聚集函数（aggregation function）。类似于aggregate()，combineByKey()允许用户返回值的类型与输入不一致。
combineByKey：需要三个参数
第一个参数表示：将相同Key的第一个数据进行结构转换，实现操作，如：v=>(v,1)
第二个参数表示：分区内的计算规则
第三个参数表示：分区间的计算规则

例子：

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(("a", 1), ("a", 2), ("b", 3), ("b", 4), ("b", 5), ("a", 6)), 2)

    val aggRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
      v => (v, 1),
      (t: (Int, Int), v) => (t._1 + v, t._2 + 1),
      (t1: (Int, Int), t2: (Int, Int)) => (t1._1 + t2._1, t1._2 + t2._2)
    )

    val resultRDD: RDD[(String, Int)] = aggRDD.mapValues(t => t._1 / t._2)

    resultRDD.collect().foreach(println)

    sc.stop()
  }

二、sortByKey

在一个(K,V)的 RDD 上调用，K 必须实现 Ordered 接口(特质)，返回一个按照 key 进行排序的

例子：

val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))
val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(true)
val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(false)

三、join

在类型为(K,V)和(K,W)的 RDD 上调用，返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD
join：两个不同数据源的数据，相同Key的Value会连接在一起，形成二元组
如果两个数据源中Key没有匹配上，那么数据不会出现在结果中
如果两个数据源中Key有多个相同的，会依次匹配，可能会出现笛卡尔积，数据量会几何增长，会导致性能降低

例子：

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)
    
    val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2), ("c", 3)))
    val rdd2 = sc.makeRDD(List(("a", 4), ("a", 5), ("c", 6)))

    val joinRDD: RDD[(String, (Int, Int))] = rdd1.join(rdd2)

    joinRDD.collect().foreach(println)

    sc.stop()
  }

四、leftOuterJoin & rightOuterJoin

类似于 SQL 语句的左外连接和右外连接

例子：

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2), ("c", 3)))
    val rdd2 = sc.makeRDD(List(("a", 4), ("b", 5)))

    //val leftJoinRDD: RDD[(String, (Int, Option[Int]))] = rdd1.leftOuterJoin(rdd2)
    val rightJoinRDD: RDD[(String, (Option[Int], Int))] = rdd1.rightOuterJoin(rdd2)

    rightJoinRDD.collect().foreach(println)

    sc.stop()
  }

五、cogroup

在类型为(K,V)和(K,W)的 RDD 上调用，返回一个(K,(Iterable,Iterable))类型的 RDD

cogroup ：connect + group
分组+连接

例子：

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd1 = sc.makeRDD(List(("a", 1), ("a", 2), ("c", 3)))
    val rdd2 = sc.makeRDD(List(("a", 4), ("a", 4),("b", 5)))

    val cogroupRDD: RDD[(String, (Iterable[Int], Iterable[Int]))] = rdd1.cogroup(rdd2)

    cogroupRDD.collect().foreach(println)

    sc.stop()
  }

hunter95671

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD转换算子-Key-Value类型总结（2）

一、combineByKey最通用的对 key-value 型 rdd 进行聚集操作的聚集函数（aggregation function）。类似于aggregate()，combineByKey()允许用户返回值的类型与输入不一致。combineByKey：需要三个参数第一个参数表示：将相同Key的第一个数据进行结构转换，实现操作，如：v=>(v,1)第二个参数表示：分区内的计算规则第三个参数表示：分区间的计算规则例子：def main(args: Array[String]): Uni
复制链接

扫一扫