Presto 中 lookUp Join的实现

本文详细介绍了Presto中的LoopupJoin操作,它通过HashBuilderOperator将右表数据加载到内存,形成HashBuilder表。然后,LookupJoinOperator利用这个内存中的HashBuilder表对左表数据进行探测和连接。在HashBuilder表构造完成后,LookupJoinOperator开始处理probe表数据,实现高效的内存JOIN。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 前言

        Loopup Join顾名思义就是通过查找方式实现的Join,也即右边常驻内存,左表不断去内存里边loopup 看join条件是否相等来实现join操作。在presto中,常驻内存的表称为HashBuilder表,有HashBuilderOperator算子负责构造,不断去探测的表称为probe表,在LookupJoinOperator中实现probe表对HashBuilder表的探测和数据关联。

二. HashBuilder表的构造

    构造表的时候,通过HashBuilderOperator将需要常驻内存的表读到内存中:

HashBuilderOperator::addInput

​   updateIndex

​       index.addPage

​           channels[i].add(block);   // 所有数据都在channels中

读完表后:

HashBuilderOperator::finish
​   finishInput
​       buildLookupSource
​          index.createLookupSourceSupplier
​             return lookupSourceFactory.createLookupSourceSupplier(...valueAddresses,  channels...)   //将HashBuilder表的数据全部都放在LookupSource,LookupSource为LookupJoinOperator提供右表的数据的读取

​          state = State.LOOKUP_SOURCE_BUILT  //HashBuilder表已经完成构造,LookupJoinOperator将开始工作

三. LookupJoinOperator的探测

     LookupJoinOperator的构造函数中的LookupSourceFactory可以得到HashBuilder表的所有数据

probe表的数据通过LookupJoinOperator::addInput 不断进来, 并加工成一个probe表

当下游通过getOutput取一批数据的时候:

LookupJoinOperator::getOutput
​   processProbe
​      processProbe(lookupSourceLease.getLookupSource())  //这里用到了HashBuilder表的数据了
​          joinCurrentPosition
​             pageBuilder.appendRow(probe, lookupSource, joinPosition)    //2表相同数据的碰撞
​                outputPage = pageBuilder.build(probe)
​                     Block[] blocks = new Block[probeOutputChannels.length + buildOutputChannelCount];              //实现了2表join
Presto SQL中的CROSS JOIN是一种用于获取两个表的笛卡尔积的操作。它会将左表的每一行与右表的每一行进行组合,生成一个新的表。CROSS JOIN操作没有任何条件约束,它会返回两个表中所有可能的组合。 在Presto SQL中,可以使用CROSS JOIN关键字来执行CROSS JOIN操作。例如,如果我们有两个表A和B,可以使用以下语法执行CROSS JOIN操作: SELECT * FROM A CROSS JOIN B; 这将返回一个新的表,其中包含A表和B表中所有可能的组合。请注意,CROSS JOIN操作可能会导致结果集非常庞大,因此使用时需要谨慎。 引用中的列转行示例中,通过使用UNION ALL将htable表的不同列转换为多行,每一行包含一个uid、一个key和一个value。 引用中的行转列示例中,通过使用map_agg函数将htable表的多行聚合为一行,每一行包含一个uid和一个包含c1、c2和c3列的键值对映射。 引用中的行转列示例中,通过使用CASE WHEN语句,将htable表的多行转换为一行,每一行包含一个uid和一个包含c1、c2和c3列的键值对映射,其中使用max函数将每个列的值聚合到一起。 总结起来,Presto SQL中的CROSS JOIN操作可以用于获取两个表的笛卡尔积。同时,可以使用列转行和行转列的方法来处理表中的数据,根据具体的需求选择合适的方法进行数据转换。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Hive/Spark/Presto/标准SQL实现行转列和列转行](https://blog.csdn.net/soaring0121/article/details/99870447)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值