RDD支持多个Value来进行转换操作,即RDD支持多RDD的计算
5-1.1 rdd.union(other RDD) 并集运算
返回RDD与其他RDD的结合
>>> rdd = sc.parallelize([1, 1, 2, 3])
>>> rdd.union(rdd).collect()
[1, 1, 2, 3, 1, 1, 2, 3]
5-1.2 rdd.subtract(other RDD) 差集运算
返回自身不包括其他RDD的集合
>>> x = sc.parallelize([("a", 1), ("b", 4), ("b", 5), ("a", 3)])
>>> y = sc.parallelize([("a", 3), ("c", None)])
>>> sorted(x.subtract(y).collect())
[('a', 1), ('b', 4), ('b', 5)]
5-1.3 rdd.intersection(other RDD) 交集运算
返回RDD与其他RDD的交集,输出不包括任何重复元素,即使输入有重复元素
内部执行Shuffle操作
>>> rdd1 = sc.parallelize([1, 10, 2, 3, 4, 5])
>>> rdd2 = sc.parallelize([1, 6, 2, 3, 7, 8])
>>> rdd1.intersection(rdd2).collect()
[1, 2, 3]
5-1.4 rdd.cartesian(other RDD) 笛卡尔积运算
返回两个RDD的笛卡尔积
>>> rdd = sc.parallelize([1, 2])
>>> sorted(rdd.cartesian(rdd).collect())
[(1, 1), (1, 2), (2, 1), (2, 2)]
5-1.5 rdd.zip(other RDD)
将两个RDD组合成Key-Value形式的RDD,这里默认两个RDD的partition数量以及元素数量是相同的,否则会抛出异常
需求:创建两个RDD,并将两个RDD组合到一起形成(k, v)形式的RDD
>>> x = sc.parallelize(range(0,5))
>>> y = sc.parallelize(range(1000, 1005))
>>> x.zip(y).collect()
[(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]