spark算子join讲解

1.Join是什么

join定义如下:

def
join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]
     join方法是对两个需要连接的RDD进行内连接操作,然后对每个key下的元素进行笛卡儿积操作,返回的结果再展平。

注意:是内连接

2.产生两个RDD

 val rdd1 = sc.parallelize(Array(("aa",1),("bb",2)))

 val rdd2 = sc.parallelize(Array(("aa",3),("dd",1)))

3.进行join操作

val joincl = rdd1.join(rdd2)

4.使joincl变成collect集合

val joincl2= joincl.collect()

5.遍历输出集合

for (i <- 0 to joincl2.length-1){
      println(joincl2(i))
    }
结果为:(aa,(1,3))

6.完整代码及结果


7.相关算子讲解

spark算子union使用

spark算子map reduce小案例

spark中textFile、groupByKey、collect、flatMap、map结合小案例(案例虽小,功能齐全) 

spark算子flatMap与textFile、saveAsTextFile结合小案例

SparkSQL中DataFrame Operations操作(select、filter、groupBy、count)


发布了28 篇原创文章 · 获赞 10 · 访问量 11万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览