Spark SQL PERCENTILE分析调研

3 篇文章 0 订阅
3 篇文章 0 订阅

目录

 

Spark percentile原理

Hive percentile

Spark percentile

优化方案


Spark percentile原理

https://zhuanlan.zhihu.com/p/340626739

https://www.cnblogs.com/myseries/p/10880641.html

Hive percentile

采用的是特殊的数据结构,先通过一轮聚合把每个数值出现的次数用元组的形式存储起来,再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理,那么 Mapper 是需要在生成时不断通过聚合计算更新,其内部实现基于 histogram。

数据集:

[1, 1, 1, 2, 2, 2, 3, 4, 4, 5, 6, 7, 8, 9, 9, 10, 10]

histogram :

[(1, 3), (2, 3), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 2)]

分析:这里的开销主要在一次聚合时,由于通常作为分位数字段数据较为分散,因此第一步需要分组聚合组成histogram,第二步将histogram移到一个节点中进行排序取分位值

Spark percentile

在hive percentile的基础上将(key,countValue)的结构替换成bitmap数组+countValue数组,通过把位索引改成bitmap结构来节省一些时间和空间上的开销。

  • 仅接受 Int, Long,精确计算,底层用 OpenHashMap 计数,然后排序key。

OpenHashMap 为了加快速度,增加了一个假设:

  • 所有数据只插入 Key /更新 Key,不删除 Key。

  • 这个假设在大数据处理/统计的场景下,大多都是成立的。

  • 可以去掉拉链表,使用线性探测的开放定址法来实现哈希表。

OpenHashSet 快的原因:

  1. 内存利用率高: 去掉了 8B 的指针结构(解决hash冲突从拉链法改为开放定址法),能够创建更大的哈希表,冲突减少

  2. 内存紧凑: 位图操作快,可以在插入过程中实现自排序,省去内存排序开销

优化方案

建议将分位值计算的任务改成Spark任务

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值