Presto之Left Join和Right Join的实现

一. 前言

       我们知道,在Presto中,与inner join相比,left join会保留probe表(左表)的所有值,right join会保留build表(右表)的所有值。inner join的是实现在文章Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客中已经介绍,本文主要是介绍在Presto中,Left Join和Right Join的实现和它们Inner Join的实现过程的区别。

二. Presto Left Join的实现

       在Presto中,Left Join和Inner Join的整体流程基本是一样的,整体流程参考Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客

       唯一的区别是,Left Join为了保留probe表的所有数据,因此与Inner Join相比多了一步:

       在用Probe表每行数据与Build表探测的时候,如果发现是Left Join(Probe表是外表),则保留此行Probe表的数据,并且在Build表的输出中增加一列空值行与之对应。主要实现如下所示:

 

三. Presto Right Join的实现

         在Presto中,Right Join的实现稍微比Left Join复杂,Right Join为了保留Build表的所有数据,使用了LookupJoinOperator和LookupOuterOperator两个算子实现的。LookupJoinOperator负责Build表和Probe表有交集部分的数据生成,LookupOuterOperator负责Build表中和Probe表无交集部分的数据生成。如下是一个Right Join的执行计划图:

 

   Right Join的实现的过程如下所示:

   1. Probe表和Hash表碰撞,看是否有相同的Join Key值。

      此部分的实现参考 Presto之Hash Join 数据碰撞的实现过程_王飞活的博客-CSDN博客 。

     2. 如果build表和probe表有交集,则将LoopupJoinOperator的输出PageBuilder中保留该行数据,并且在数据positionVisited中将该行数据postiiton的下标值为true(visitedPositions的位置为true,说明build表该行有和probe表有交集,否则说明无交集)。 

 

     3. 等LookUpJoinOperator计算完成Probe表和Build表交集结果后,LoopupOuterOperator将启动Build表与Probe表中无交集部分的结果的生成。LoopupOuterOperator将遍历visitedPositions,如果visitedPositions数组值为false,则通过保留Build表的数据,设置左表的数据为NULL,完成无交集部分结果的输出。

 

   4.  LookUpJoinOperator和LoopupOuterOperator的结果输出到同一个TaskOutputOperator中,完成Right Join计算结果的输出。

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值