前言
在之前的文章中,我们学习了Spark 中的groupBy算子以及连接两个RDD的算子,试想有这么一个场景,两个不同的RDD中,是key/val类型的集合,现在需要将这两个不同的RDD按照key进行连接在一起,这该如何实现呢?
于是就可以考虑使用Spark中提供的算子cogroup;
函数签名
def cogroup[W]( other: RDD[(K, W)] ): RDD[(K, (Iterable[V], Iterable[W]))]
函数说明
在类型为 (K,V) 和 (K,W) 的 RDD 上调用,返回一个 (K,(Iterable<V