- 从shuffle的角度: reduceByKey,和groupByKey都存在shuffle的操作,但是reduceByKey.可以在 shuffle前对分区内相同key的数据进行预聚合(combine)功能,这样会减少落盘的数据量,而groupByKey只是进行分组,不存在数据量减少的问题,reduceByKey性能比较高。
- 从功能的角度: reduceByKey其实包含分组和聚合的功能。GroupByKey只能分组,不能聚合,所以在分组聚合的场合下,推荐使用reduceByKey,如果仅仅是分组而不需要聚合。那么还是只能使用groupByKey
reduceByKey 和 groupByKey的区别
最新推荐文章于 2024-02-21 11:31:29 发布