Spark的几种AggMode

orange大数据技术探索者

已于 2024-01-28 13:34:25 修改

阅读量258

点赞数

分类专栏：源码探索文章标签： spark distinct

于 2020-04-18 22:15:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43283487/article/details/105606439

版权

源码探索专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Spark对聚合做了优化，有几种AggMode
在这里插入图片描述
Partial: 局部数据的聚合。会根据读入的原始数据更新对应的聚合缓冲区，当处理完所有的输入数据后，返回的是局部聚合的结果
PartialMerge: 主要是对Partial返回的聚合缓冲区（局部聚合结果）进行合并，但此时仍不是最终结果，还要经过Final才是最终结果(count distinct 类型)
Final: 起到的作用是将聚合缓冲区的数据进行合并，然后返回最终的结果
Complete: 不进行局部聚合计算，应用在不支持Partial模式的聚合函数上（比如求百分位percentile_approx）

非distinct类的聚合函数的路线：Partial --> Final
distinct类的聚合函数的路线：Partial --> PartialMerge --> Partial --> Final

在hive中，我们常用两次group代替count(distinct)来做优化，避免结果数据在一个reduce运行，但是spark其实帮我们做了优化

先通过hash保证同一个value不会分配到多个task，我只需要对当前task统计，合并求sum就行了

有人会问那要是我有多个distinct怎么办，会对数据做expand，比如 select count(distinct uid),count(distinct device_id)
物理执行计划有：Expand [[uid#7818, null, 1], [null, device_id#7821, 2]]
当然了，会导致数据膨胀的问题

具体执行类是 HashAggregateExec

orange大数据技术探索者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
Spark的几种AggMode

PartialMerge: 主要是对Partial返回的聚合缓冲区（局部聚合结果）进行合并，但此时仍不是最终结果，还要经过Final才是最终结果(count distinct 类型)在hive中，我们常用两次group代替count(distinct)来做优化，避免结果数据在一个reduce运行，但是spark其实帮我们做了优化。会根据读入的原始数据更新对应的聚合缓冲区，当处理完所有的输入数据后，返回的是局部聚合的结果。Final: 起到的作用是将聚合缓冲区的数据进行合并，然后返回最终的结果。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

orange大数据技术探索者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。