Spark编程模型（三）：Spark算子（2）-双Value型Transformation算子

最新推荐文章于 2022-12-03 15:45:02 发布

渊飞

最新推荐文章于 2022-12-03 15:45:02 发布

阅读量131

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/duguwanglong/article/details/108268372

版权

Spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

RDD支持多个Value来进行转换操作，即RDD支持多RDD的计算

5-1.1 rdd.union(other RDD) 并集运算

返回RDD与其他RDD的结合

>>> rdd = sc.parallelize([1, 1, 2, 3]) 
>>> rdd.union(rdd).collect() 
[1, 1, 2, 3, 1, 1, 2, 3]

5-1.2 rdd.subtract(other RDD) 差集运算

返回自身不包括其他RDD的集合

>>> x = sc.parallelize([("a", 1), ("b", 4), ("b", 5), ("a", 3)]) 
>>> y = sc.parallelize([("a", 3), ("c", None)]) 
>>> sorted(x.subtract(y).collect()) 
[('a', 1), ('b', 4), ('b', 5)]

5-1.3 rdd.intersection(other RDD) 交集运算

返回RDD与其他RDD的交集，输出不包括任何重复元素，即使输入有重复元素

内部执行Shuffle操作

>>> rdd1 = sc.parallelize([1, 10, 2, 3, 4, 5]) 
>>> rdd2 = sc.parallelize([1, 6, 2, 3, 7, 8]) 
>>> rdd1.intersection(rdd2).collect() 
[1, 2, 3]

5-1.4 rdd.cartesian(other RDD) 笛卡尔积运算

返回两个RDD的笛卡尔积

>>> rdd = sc.parallelize([1, 2]) 
>>> sorted(rdd.cartesian(rdd).collect()) 
[(1, 1), (1, 2), (2, 1), (2, 2)]

5-1.5 rdd.zip(other RDD)

将两个RDD组合成Key-Value形式的RDD，这里默认两个RDD的partition数量以及元素数量是相同的，否则会抛出异常

需求：创建两个RDD，并将两个RDD组合到一起形成(k, v)形式的RDD

>>> x = sc.parallelize(range(0,5)) 
>>> y = sc.parallelize(range(1000, 1005)) 
>>> x.zip(y).collect() 
[(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]

渊飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark编程模型（三）：Spark算子（2）-双Value型Transformation算子

RDD支持多个Value来进行转换操作，即RDD支持多RDD的计算5-1.1 rdd.union(other RDD) 并集运算返回RDD与其他RDD的结合>>> rdd = sc.parallelize([1, 1, 2, 3]) >>> rdd.union(rdd).collect() [1, 1, 2, 3, 1, 1, 2, 3]5-1.2 rdd.subtract(other RDD) 差集运算返回自身不包括其他RDD的集合&gt
复制链接

扫一扫