- 博客(1)
- 收藏
- 关注
原创 spark性能优化--极致的aggregateBykey
在spark开发过程中,每一个算子都会影响到整体性能。对于T/p级数据聚合每一个微小的操作,都会使计算时间相差几分钟甚至小时。在计算过程中的一个原则就是尽量少的使用shuffle操作,能合并的shuffle尽量合并。 这两天在开发的时候就犯了一个错误。需求是求出PairRdd中每个key的最大值,最小值,每个key的数量统计。一开使用的的就是最普通的算法,先cache,再求...
2018-04-04 11:21:37 1127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人