先对每个RDD中的数据进行分组,如:
V1,V2会分为一组, 形成K,依次类推。
对RDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,
否则会生成ShuffleRDD.
把相同K,后面的V合并成一个集合。
Spark RDD中Transformation的groupBy、partitionBy、cogroup详解
最新推荐文章于 2023-08-07 16:10:56 发布
先对每个RDD中的数据进行分组,如:
V1,V2会分为一组, 形成K,依次类推。
对RDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区,
否则会生成ShuffleRDD.
把相同K,后面的V合并成一个集合。