Spark中常用的join操作有leftOuterJoin、rightOuterJoin、fullOuterJoin及join,这4个join。这几个join都类似于mysql中的join操作,其中Rdd的join就相当于mysql中的innerJoin。
下面以代码和结果的形式展示这几个join的区别:
val conf = new SparkConf().setAppName("JoinTest").setMaster("local")
val sc = new SparkContext(conf)
val pairRDD1 = sc.parallelize(List( ("cat",2), ("cat", 5), ("book", 4),("cat", 12)))
val pairRDD2 = sc.parallelize(List( ("cat",2), ("cup", 5), ("mouse", 4),("cat", 12)))
val rdd1 = pairRDD1.leftOuterJoin(pairRDD2)
val rdd2 = pairRDD1.rightOuterJoin(pairRDD2)
val rdd3 = pairRDD1.fullOuterJoin(pairRDD2)
val rdd4 = pairRDD1.join(pairRDD2)
rdd1.collect().foreach(println)
rdd2.collect().foreach(println)
rdd3.collect().foreach(println)
rdd4.collect().foreach(println)
}
接下来分别是四个join的结果:
(1)leftOuterJoin 左连接,返回数据集左边的全部数据和数据集左边与右边有交集的数据
(2)rightOuterJoin 右连接,返回数据集右边的全部数据和数据集右边与左边有交集的数据
(3)fullOuterJoin 全连接,返回左右数据集的全部数据,左右有一边不存在的数据以None填充
(4)join 内连接,当join左右两边的数据集都存在时才返回