Spark编程模型(三):Spark算子(2)-双Value型Transformation算子

RDD支持多个Value来进行转换操作,即RDD支持多RDD的计算

5-1.1 rdd.union(other RDD) 并集运算

返回RDD与其他RDD的结合

>>> rdd = sc.parallelize([1, 1, 2, 3]) 
>>> rdd.union(rdd).collect() 
[1, 1, 2, 3, 1, 1, 2, 3]

5-1.2 rdd.subtract(other RDD) 差集运算

返回自身不包括其他RDD的集合

>>> x = sc.parallelize([("a", 1), ("b", 4), ("b", 5), ("a", 3)]) 
>>> y = sc.parallelize([("a", 3), ("c", None)]) 
>>> sorted(x.subtract(y).collect()) 
[('a', 1), ('b', 4), ('b', 5)]

5-1.3 rdd.intersection(other RDD) 交集运算

返回RDD与其他RDD的交集,输出不包括任何重复元素,即使输入有重复元素

内部执行Shuffle操作

>>> rdd1 = sc.parallelize([1, 10, 2, 3, 4, 5]) 
>>> rdd2 = sc.parallelize([1, 6, 2, 3, 7, 8]) 
>>> rdd1.intersection(rdd2).collect() 
[1, 2, 3]

5-1.4 rdd.cartesian(other RDD) 笛卡尔积运算

返回两个RDD的笛卡尔积

>>> rdd = sc.parallelize([1, 2]) 
>>> sorted(rdd.cartesian(rdd).collect()) 
[(1, 1), (1, 2), (2, 1), (2, 2)]

5-1.5 rdd.zip(other RDD)

将两个RDD组合成Key-Value形式的RDD,这里默认两个RDD的partition数量以及元素数量是相同的,否则会抛出异常

需求:创建两个RDD,并将两个RDD组合到一起形成(k, v)形式的RDD

>>> x = sc.parallelize(range(0,5)) 
>>> y = sc.parallelize(range(1000, 1005)) 
>>> x.zip(y).collect() 
[(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值