Photon Vectorized Engine 学习记录

最新推荐文章于 2024-10-19 16:18:41 发布

maray

最新推荐文章于 2024-10-19 16:18:41 发布

阅读量390

点赞数

分类专栏： OceanBase 数据库技术文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maray/article/details/129178567

版权

OceanBase 同时被 2 个专栏收录

138 篇文章 6 订阅

订阅专栏

数据库技术

80 篇文章 1 订阅

订阅专栏

文章探讨了PhotonHashJoin在向量化过程中的关键步骤，包括使用开放地址法处理冲突，优化Null处理以提高性能，以及为过滤数据引入ActiveRows结构。Photon针对不同Null情况设计了NotNullKernel和WithNullKernel，同时对比了ActiveRows和Skip数组两种数据访问优化策略。

摘要由CSDN通过智能技术生成

Photon Hash Aggregation Vectorization

Photon Hash Join 的向量化的要点是：使用开放地址法。步骤：

向量化计算 hash 值
基于 hash 向量化计算 bucket 下标，得到 bucket index 向量
基于 bucket index 向量中记录的下标找到 bucket，判定是否冲突，如果冲突则继续向下，直至找到正确 bucket，将正确 bucket 下标回填到 bucket index 向量中（Not So Vectorized）。下图中绿色就是解决冲突后找到的 bucket 位置。

在这里插入图片描述
4. 向量化计算 Aggregate 值。伪代码如下：

可以看到，上面几个步骤里，除了 3 里面有一些不规整的操作，其余都是非常简单的 kernel 操作。

Photon 关于 Null 的考虑

Photon 测试发现，为了处理 Null，会付出 23+% 的开销。基于如下观察：

用户很少专门给列加上 Not Null 约束
很多场景里虽然没有指明 Not Null 约束，但实际数据中 Null 很少

所以，Photo 给每一个 batch 的数据都附带了一个 has_nulls() 标记，如果这一批数据里面一个 null 都没有，那么这一批数据的计算就可以使用 NotNullKernel，性能最佳；反之，就回退到使用 WithNullKernel，付出必要的代价。

在这里插入图片描述
注意：这里要强调 Batch，而不是全量数据。全量数据里有少许 Null，但其中大部分 Batch 里没有 Null，就能用上上述优化。

Photon 关于 Selector / Active Rows 考虑

考虑到存在 Filter，并且 Filter 可能会过滤掉大部分数据，Photon 为过滤后的数据创建了一个 Active Rows 结构，用于索引未被过滤的数据。
增加 Active Rows 概念后，后继所有数据访问都要通过 Active Rows 索引来定位，成为框架固有开销。

另一种实现思路是引入 Skip 数组，当行过滤时，Skip[i] 被设置为 1，否则为 0。访问过滤后的数据时，需要遍历整个 skip 数组。这么做的好处是（…内存好管理？），缺点是增加了不必要的判断。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。