spark sql 中的 笛卡尔积(cross join)优化方法--mapjoin

背景

这里分享了 在进行spark sql 编写任务作业时遇到的问题,并记录了解决方案。

在编写sql代码时,需要尽量少使用 笛卡尔积,但是有些特殊场景下很难找到代替方案,比如下面的案例:

select 
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

这里是求 任务开始时间 和 任务结束时间 之间的工作日总数。使用 笛卡尔积 + 限制条件 是比较好的处理方式。
但是,执行结果就是 特别慢!aa 表不到 10w, bb表只有几千条,执行了30分钟还是不行!

优化方案

这里使用 mapjoin 来进行优化。
优化后的sql如下:

select /*+ mapjoin(bb)*/
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

sql修改后,不到 1分钟就执行完了,快得飞起!但是,注意bb表不能太大。
如果bb表是大表的话,可以考虑 借用临时表来避免 笛卡尔积,这个跟业务比较紧密关联。

mapjoin简单来说,就是把小表读取到分布式缓存中(DistributeCache),然后拷贝到计算节点上。由于在内存中操作,自然比较快了。

Presto SQL中的CROSS JOIN是一种用于获取两个表的笛卡尔积的操作。它会将左表的每一行与右表的每一行进行组合,生成一个新的表。CROSS JOIN操作没有任何条件约束,它会返回两个表中所有可能的组合。 在Presto SQL中,可以使用CROSS JOIN关键字来执行CROSS JOIN操作。例如,如果我们有两个表A和B,可以使用以下语法执行CROSS JOIN操作: SELECT * FROM A CROSS JOIN B; 这将返回一个新的表,其中包含A表和B表中所有可能的组合。请注意,CROSS JOIN操作可能会导致结果集非常庞大,因此使用时需要谨慎。 引用中的列转行示例中,通过使用UNION ALL将htable表的不同列转换为多行,每一行包含一个uid、一个key和一个value。 引用中的行转列示例中,通过使用map_agg函数将htable表的多行聚合为一行,每一行包含一个uid和一个包含c1、c2和c3列的键值对映射。 引用中的行转列示例中,通过使用CASE WHEN语句,将htable表的多行转换为一行,每一行包含一个uid和一个包含c1、c2和c3列的键值对映射,其中使用max函数将每个列的值聚合到一起。 总结起来,Presto SQL中的CROSS JOIN操作可以用于获取两个表的笛卡尔积。同时,可以使用列转行和行转列的方法来处理表中的数据,根据具体的需求选择合适的方法进行数据转换。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Hive/Spark/Presto/标准SQL实现行转列和列转行](https://blog.csdn.net/soaring0121/article/details/99870447)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值