spark window源码探索

orange大数据技术探索者

已于 2024-01-29 13:57:55 修改

阅读量1k

点赞数 18

分类专栏：源码探索文章标签： spark 大数据窗口函数源码

于 2024-01-29 13:57:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43283487/article/details/135910446

版权

源码探索专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文详细探讨了WindowExec的物理执行逻辑入口，特别是doExecute()方法，以及WindowFunctionFrame的抽象和使用。重点介绍了BoundOrdering类、AggregateProcessor的职责，以及WindowExpression在窗口计算中的作用。还揭示了如何通过partition和聚合模式影响性能，以及RDD的mapPartitions和window缓冲策略。

摘要由CSDN通过智能技术生成

核心类：

1. WindowExec 物理执行逻辑入口，主要doExecute()和父类WindowExecBase

2. WindowFunctionFrame 窗框执行抽象，其子类对应sql语句的不同窗框

其中又抽象出BoundOrdering类, 用于判断一行是否在界限内(Bound), 分为RowBoundOrdering和RangeBoundOrdering

我们的UDAF在何时已什么顺序接受数据, 何时会被执行eval, 都取决于窗框内方法调用逻辑!

3. AggregateProcessor 负责调用一个frame下的各个窗口函数, 起着包装/代理的功能

AggregateProcessor中三个关键方法: initialize, update, evaluate, 里面都是去调用具体Function的对应方法

4. WindowExpression：窗口函数表达式，将一个表达式和一个窗口规范关联起来，用于在数据集的窗口上进行计算

代码流程

WindowExec这个类是物理执行逻辑入口，它有一个父类WindowExecBase

1. 在这里可以看到如果有partition关键字，就是hashpartition，没有partition by就会是singlepartition

2. 再看聚合的类 AggregateProcessor，明确说明了窗口函数只会使用Complete聚合模式，也就是说窗口操作，相同key的数据一定在同一分区，所以window函数的性能是比group要差的

回到WindowExec，我们再来看doExecute()做了什么

首先windowFrameExpressionFactoryPairs 主要是根据窗口表达式, 生成下面几个执行需要的核心类的对象

对RDD调用mapPartitions, 需要处理Iterator[InternalRow]并返回一个Iterator[InternalRow]

window执行过程中额外设置了buffer进行汇总，每个窗口中数据的缓存结构，有大小和条数限制，超出会移出到磁盘

fetchNextPartition做的事, 就是从子RDD的分区的Iterator[InternalRow]中, 每次读取同组的所有行(partition by列值相同的所有行). 它的执行逻辑, 依赖于RDD中的数据已经按照要求分区排序好了, 所以代码不复杂.

并经过一系列处理后join得到的window function result返回

另外可以看到上诉两个代码其实都是在调用frame（WindowFunctionFrame）的两个方法：

prepare(rows: ExternalAppendOnlyUnsafeRowArray): Prepare the frame for calculating the results for a partition. 在WindowExec的fetchNextPartition中被调用, 接收到同组的所有输入行.
write(index: Int, current: InternalRow): Write the current results to the target row. 向target中写入当前行的计算结果. 一次一行.

而且多个窗口时explain可以看到多个窗口串行执行

orange大数据技术探索者

关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

orange大数据技术探索者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。