Photon Vectorized Engine 学习记录

Photon Hash Aggregation Vectorization

Photon Hash Join 的向量化的要点是:使用开放地址法。步骤:

  1. 向量化计算 hash 值
  2. 基于 hash 向量化计算 bucket 下标,得到 bucket index 向量
  3. 基于 bucket index 向量中记录的下标找到 bucket,判定是否冲突,如果冲突则继续向下,直至找到正确 bucket,将正确 bucket 下标回填到 bucket index 向量中 (Not So Vectorized)。下图中绿色就是解决冲突后找到的 bucket 位置。

在这里插入图片描述
4. 向量化计算 Aggregate 值。伪代码如下:
在这里插入图片描述
可以看到,上面几个步骤里,除了 3 里面有一些不规整的操作,其余都是非常简单的 kernel 操作。

Photon 关于 Null 的考虑

Photon 测试发现,为了处理 Null,会付出 23+% 的开销。基于如下观察:

  • 用户很少专门给列加上 Not Null 约束
  • 很多场景里虽然没有指明 Not Null 约束,但实际数据中 Null 很少

所以,Photo 给每一个 batch 的数据都附带了一个 has_nulls() 标记,如果这一批数据里面一个 null 都没有,那么这一批数据的计算就可以使用 NotNullKernel,性能最佳;反之,就回退到使用 WithNullKernel,付出必要的代价。

在这里插入图片描述
注意:这里要强调 Batch,而不是全量数据。全量数据里有少许 Null,但其中大部分 Batch 里没有 Null,就能用上上述优化。

Photon 关于 Selector / Active Rows 考虑

考虑到存在 Filter,并且 Filter 可能会过滤掉大部分数据,Photon 为过滤后的数据创建了一个 Active Rows 结构,用于索引未被过滤的数据。
增加 Active Rows 概念后,后继所有数据访问都要通过 Active Rows 索引来定位,成为框架固有开销。

另一种实现思路是引入 Skip 数组,当行过滤时,Skip[i] 被设置为 1,否则为 0。访问过滤后的数据时,需要遍历整个 skip 数组。这么做的好处是(…内存好管理?),缺点是增加了不必要的判断。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值