背景
这里分享了 在进行spark sql 编写任务作业时遇到的问题,并记录了解决方案。
在编写sql代码时,需要尽量少使用 笛卡尔积,但是有些特殊场景下很难找到代替方案,比如下面的案例:
select
aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...
这里是求 任务开始时间 和 任务结束时间 之间的工作日总数。使用 笛卡尔积 + 限制条件 是比较好的处理方式。
但是,执行结果就是 特别慢!aa 表不到 10w, bb表只有几千条,执行了30分钟还是不行!
优化方案
这里使用 mapjoin 来进行优化。
优化后的sql如下:
select /*+ mapjoin(bb)*/
aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...
sql修改后,不到 1分钟就执行完了,快得飞起!但是,注意bb表不能太大。
如果bb表是大表的话,可以考虑 借用临时表来避免 笛卡尔积,这个跟业务比较紧密关联。
mapjoin简单来说,就是把小表读取到分布式缓存中(DistributeCache),然后拷贝到计算节点上。由于在内存中操作,自然比较快了。