2018年04月_sunkl_

10月 09月 08月 05月 04月 01月

原创 spark性能优化--极致的aggregateBykey

在spark开发过程中，每一个算子都会影响到整体性能。对于T/p级数据聚合每一个微小的操作，都会使计算时间相差几分钟甚至小时。在计算过程中的一个原则就是尽量少的使用shuffle操作，能合并的shuffle尽量合并。这两天在开发的时候就犯了一个错误。需求是求出PairRdd中每个key的最大值，最小值，每个key的数量统计。一开使用的的就是最普通的算法，先cache，再求...

2018-04-04 11:21:37 1127

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人