spark sql 中的 笛卡尔积(cross join)优化方法--mapjoin

背景

这里分享了 在进行spark sql 编写任务作业时遇到的问题,并记录了解决方案。

在编写sql代码时,需要尽量少使用 笛卡尔积,但是有些特殊场景下很难找到代替方案,比如下面的案例:

select 
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

这里是求 任务开始时间 和 任务结束时间 之间的工作日总数。使用 笛卡尔积 + 限制条件 是比较好的处理方式。
但是,执行结果就是 特别慢!aa 表不到 10w, bb表只有几千条,执行了30分钟还是不行!

优化方案

这里使用 mapjoin 来进行优化。
优化后的sql如下:

select /*+ mapjoin(bb)*/
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

sql修改后,不到 1分钟就执行完了,快得飞起!但是,注意bb表不能太大。
如果bb表是大表的话,可以考虑 借用临时表来避免 笛卡尔积,这个跟业务比较紧密关联。

mapjoin简单来说,就是把小表读取到分布式缓存中(DistributeCache),然后拷贝到计算节点上。由于在内存中操作,自然比较快了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值