Spark SQL中的聚合（Aggregate）实现

最新推荐文章于 2023-07-03 14:37:40 发布

狗叔

最新推荐文章于 2023-07-03 14:37:40 发布

阅读量9k

点赞数 2

分类专栏： Spark 大数据畅谈文章标签： spark sql 大数据分布式云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asongoficeandfire/article/details/69679684

版权

本文深入探讨Spark SQL中的聚合实现，包括Sort Based Aggregate和Hash Based Aggregation。详细介绍了基于排序的聚合过程，以及如何通过HashMap进行数据聚合、溢出处理和预聚合操作，以优化大数据处理效率。

摘要由CSDN通过智能技术生成

Spark SQL中的聚合（Aggregate）实现

Sort Based Aggregate

首先来说说实现比较简单（但实际执行起来却不简单）的Sort Based Aggregate。顾名思义，这是一种基于排序的聚合实现，在进行聚合之前，会根据grouping key进行分区以及分区内排序，将具有相同grouping key的记录都分布在同一个partition内且前后相邻，聚合时只需要顺序遍历整个分区内的数据，即可以得到聚合结果。

如图：

这里写图片描述

途中可以看出清晰的执行流程，包括重分区和分区内排序，最后遍历每个分区，对每个key region做一个聚合，得到最终结果。

Hash Based Aggregation

即基于Hash Map的聚合实现，一般情况下使用java的HashMap进行聚合即可，但java的内置类在使用上存在着冗余信息多、占用空间大、受GC影响的问题。故SparkSQL中实现了自己的一套HashMap，裁减掉不必要的功能，使空间利用更加充分，内存申请/释放也更有效率。

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

狗叔 CSDN认证博客专家 CSDN认证企业博客

码龄15年

21: 原创

18万+: 周排名

170万+: 总排名

26万+: 访问

: 等级

1708: 积分

67: 粉丝

33: 获赞

31: 评论

40: 收藏

私信

关注

热门文章

分类专栏

最新评论

SparkSQL中的Sort实现（二）
Me丶kang: 您好，请问spark sql默认是timesort还是Radix sort呢，还是会自适应？通过哪个参数配置？
Scala从零开始：中缀表示法和后缀表示法
a18792721831: 后缀表达式在scala2.13.1中需要导入一个包，否则会报异常，编译不通过： [code=plain] Error:(55, 34) postfix operator getName needs to be enabled by making the implicit value scala.language.postfixOps visible. ---- This can be achieved by adding the import clause 'import scala.language.postfixOps' or by setting the compiler option -language:postfixOps. See the Scaladoc for value scala.language.postfixOps for a discussion why the feature needs to be explicitly enabled. println(new Liquor("Whisky") getName) [/code] 需要在package后面加一句 [code=plain] import scala.language.postfixOps [/code]
SparkSQL的3种Join实现
张叫兽的技术研究院回复 XEBYHJJ: 你抄我来我抄你，网络上到处都是这几个条件，能够broadcast还hash个毛啊
Efficient Graph-Based Image Segmentation论文思路
秋月的私语: 请教一下博主，博文中提到的“NNG算法”有具体文献吗，我看“Efficient Graph-Based Image Segmentation”的源代码只使用了欧氏距离，而并没有实现NNG算法，或者博主知道哪里可以找到NNG算法相关的内容吗？网上搜索了一下相关内容很少，这一点“当图像为三通道图像时，将算法应用于全部三个通道，只有当三个通道全部给出合并区域的建议时才合并区域。”对于我现在所做的图割项目很重要，期待博主的回复，谢谢了。
Scala从零开始：函数参数的传名调用（call-by-name）和传值调用（call-by-value）
TheManOfCoding: 如果参数是一个函数的话，应该算是call-by-name吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。