Spark中常用的join操作的区别

最新推荐文章于 2024-07-16 23:47:57 发布

葫芦娃九爷爷

最新推荐文章于 2024-07-16 23:47:57 发布

阅读量580

点赞数

分类专栏： Scala

本文链接：https://blog.csdn.net/weixin_43424643/article/details/110039424

版权

Scala 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作，其中Rdd的join就相当于mysql中的innerJoin。
下面以代码和结果的形式展示这几个join的区别:

    val conf = new SparkConf().setAppName("JoinTest").setMaster("local")
    val sc = new SparkContext(conf)
    val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12)))
    val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup", 5), ("mouse", 4),("cat", 12)))
    
    val rdd1 = pairRDD1.leftOuterJoin(pairRDD2)
    val rdd2 = pairRDD1.rightOuterJoin(pairRDD2)
    val rdd3 = pairRDD1.fullOuterJoin(pairRDD2)
    val rdd4 = pairRDD1.join(pairRDD2)
    
    rdd1.collect().foreach(println)   
    rdd2.collect().foreach(println)   
    rdd3.collect().foreach(println)    
    rdd4.collect().foreach(println)                                                                      
  }

接下来分别是四个join的结果：
(1)leftOuterJoin 左连接，返回数据集左边的全部数据和数据集左边与右边有交集的数据
在这里插入图片描述 (2)rightOuterJoin 右连接，返回数据集右边的全部数据和数据集右边与左边有交集的数据
(3)fullOuterJoin 全连接，返回左右数据集的全部数据，左右有一边不存在的数据以None填充
(4)join 内连接，当join左右两边的数据集都存在时才返回
在这里插入图片描述