Spark RDD的关联操作

Spark RDD的关联操作

join 关联

Spark默认的join是inner join操作,即两边都有的键

初始化

val a1=sc.parallelize(Array(("K1","V1"),("K2","V2"),("K3","V3")))
val a2=sc.parallelize(Array(("K1","V2"),("K3","B3"),("K4","V4")))

join

a1.join(a2).foreach(println)

输出

(K1,(V1,V2))
(K3,(V3,B3))

可以看出join操作时inner join,只会将两个RDD都有的键进行关联

leftOuterJoin

顾名思义,a1.leftOuterJoin是左外连接,以左边的键为基准,关联右边的集合元素,没有则关联元素为None

a1.leftOuterJoin(a2).foreach(println)

输出

(K1,(V1,Some(V2)))
(K2,(V2,None))
(K3,(V3,Some(B3)))

因为左边有K1,K2,K3这三个键,所以会有三行输出,其中K2在集合a2没有,所以显示了None

rightOuterJoin

右外连接,以右侧为基准,关联左侧集合

a1.rightOuterJoin(a2).foreach(println)

输出

(K4,(None,V4))
(K1,(Some(V1),V2))
(K3,(Some(V3),B3))

fullOuterJoin

全连接就是两个集合的left join和right join的合并了

a1.fullOuterJoin(a2).foreach(println)

输出

(K1,(Some(V1),Some(V2)))
(K3,(Some(V3),Some(B3)))
(K4,(None,Some(V4)))
(K2,(Some(V2),None))

subtract 补集

补集就是不在当前集合而在另一个集合的元素子集

初始化

val a3=sc.parallelize(Array(1,4,5,6,9))
val a4=sc.parallelize(Array(1,2,4,5,8))
 a3.subtract(a4).foreach(println)

输出

9
6

因为a3中6,9不在a4中,所以输出6,9

cartesian 卡迪尔积

卡迪尔积就是一个集合的每一个元素和另一个集合每个元素进行组合

a3.cartesian(a4).foreach(println)

输出

(1,1)
(1,2)
(4,1)
(4,2)
(1,4)
(1,5)
(1,8)
(4,4)
(4,5)
(4,8)
(5,4)
(5,5)
(5,8)
(6,4)
(6,5)
(6,8)
(9,4)
(9,5)
(9,8)
(5,1)
(5,2)
(6,1)
(6,2)
(9,1)
(9,2)

和full join有点类似,但是又不是,自己体会,另外普通的数组没法做join,必须要有key,通关key关联

附录
关于集合的关联示意图
左右关联

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark RDD(弹性分布式数据集)是Spark中最基本的数据抽象,它代表了一个不可变、可分区、可并行计算的数据集合。转换算子是用于对RDD进行转换操作的方法,可以通过转换算子对RDD进行各种操作和变换,生成新的RDD。 以下是一些常见的Spark RDD转换算子: 1. map(func):对RDD中的每个元素应用给定的函数,返回一个新的RDD,新RDD中的每个元素都是原RDD中元素经过函数处理后的结果。 2. filter(func):对RDD中的每个元素应用给定的函数,返回一个新的RDD,新RDD中只包含满足条件的元素。 3. flatMap(func):对RDD中的每个元素应用给定的函数,返回一个新的RDD,新RDD中的每个元素都是原RDD中元素经过函数处理后生成的多个结果。 4. union(other):返回一个包含原RDD和另一个RDD中所有元素的新RDD。 5. distinct():返回一个去重后的新RDD,其中不包含重复的元素。 6. groupByKey():对键值对RDD进行分组,返回一个新的键值对RDD,其中每个键关联一个由具有相同键的所有值组成的迭代器。 7. reduceByKey(func):对键值对RDD中具有相同键的值进行聚合操作,返回一个新的键值对RDD,其中每个键关联一个经过聚合函数处理后的值。 8. sortByKey():对键值对RDD中的键进行排序,返回一个新的键值对RDD,按照键的升序排列。 9. join(other):对两个键值对RDD进行连接操作,返回一个新的键值对RDD,其中包含两个RDD中具有相同键的所有元素。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值