目录
Spark percentile原理
https://zhuanlan.zhihu.com/p/340626739
https://www.cnblogs.com/myseries/p/10880641.html
Hive percentile
采用的是特殊的数据结构,先通过一轮聚合把每个数值出现的次数用元组的形式存储起来,再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理,那么 Mapper 是需要在生成时不断通过聚合计算更新,其内部实现基于 histogram。
数据集:
[1, 1, 1, 2, 2, 2, 3, 4, 4, 5, 6, 7, 8, 9, 9, 10, 10]
histogram :
[(1, 3), (2, 3), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 2)]
分析:这里的开销主要在一次聚合时,由于通常作为分位数字段数据较为分散,因此第一步需要分组聚合组成histogram,第二步将histogram移到一个节点中进行排序取分位值
Spark percentile
在hive percentile的基础上将&