SparkSql MAPJOIN优化之小表left join大表

木给哇啦丶

于 2020-09-03 11:16:52 发布

阅读量9k

点赞数 4

分类专栏： spark 文章标签： spark sql hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lquarius/article/details/108378859

版权

首先我们要了解MAPJOIN优化原理，这里简要说明下

Spark Broadcast hash join(Hive map join同理)

1，把小表广播到所有大表分布的节点上，在每个节点上分别进行单机hash join

2，left join时只能广播右表

执行基本条件：小表必须小于参数spark.sql.autoBroadcastJoinThreshold, 默认为10M

sql 场景小表需要left join大表小表150M左右大表1T左右

原始sql(广播左表，未成功，因为left join只支持广播右表)

create table tmp.iapp_mkt_per_imei_pkg_repair_t2_not_default_20200812_1 as

select /*+MAPJOIN(a) */ a.imei,b.package,1 status,1 install_type,b.imei imei_b

    from

        (select imei from tmp.iapp_mkt_per_imei_only_repair_20200812 where install_type = 0 and tail != 'default') a

        left join join

        (select imei,package from edw.sys_app_list_fact  where data_date = 20200812 and tail != 'default' and imei is not null and status in (1,2))b

        on a.imei = b.imei

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。