groupByKey和groupBy
两者对数据进行分组后的rdd类型不同
reduceByKey和groupByKey
1、两者都会经历shuffle操作,即将数据打乱后分组落到磁盘,然后再读取磁盘数据。但写磁盘前reduceByKey会进行预聚合以降低磁盘io,效率更高。
2、reduceByKey从功能上会对分组后的值进行聚合,而groupByKey没有。
reduceByKey、groupByKey和groupBy的区别
最新推荐文章于 2024-02-21 11:31:29 发布