Spark SQL PERCENTILE分析调研

CodeZhuxh

于 2021-03-29 19:12:37 发布

阅读量2.2k

点赞数

分类专栏：大数据 spark sparksql 文章标签： spark hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lverson116/article/details/115308687

版权

目录

Spark percentile原理

Hive percentile

Spark percentile

Spark percentile原理

https://zhuanlan.zhihu.com/p/340626739

https://www.cnblogs.com/myseries/p/10880641.html

Hive percentile

采用的是特殊的数据结构，先通过一轮聚合把每个数值出现的次数用元组的形式存储起来，再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理，那么 Mapper 是需要在生成时不断通过聚合计算更新，其内部实现基于 histogram。

数据集：

[1, 1, 1, 2, 2, 2, 3, 4, 4, 5, 6, 7, 8, 9, 9, 10, 10]

histogram ：

[(1, 3), (2, 3), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 2)]

分析：这里的开销主要在一次聚合时，由于通常作为分位数字段数据较为分散，因此第一步需要分组聚合组成histogram，第二步将histogram移到一个节点中进行排序取分位值

Spark percentile

在hive percentile的基础上将&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。