Spark Sql Left Join(多对多)导致的数据膨胀问题和解决

lilyjoke

已于 2022-03-03 17:45:42 修改

阅读量5.4k

点赞数 6

分类专栏：大数据文章标签： sql spark 数据库

于 2022-03-03 17:20:30 首次发布

本文链接：https://blog.csdn.net/lilyjoke/article/details/123258837

版权

问题：大表left join小表，小表有20万条，大概就12M大小。大表有30多亿条，对应分区下有40个HDFS文件，简单的一个left join，跑了几个小时跑不出结果。

INSERT OVERWRITE TABLE 结果表 PARTITION(dt='20220302') 
select 
    vertice,types,gid 
from (
    select 
        vertice,gid,types 
    from 
        大表 
    where dt='20220302'
) a 
left join (
    SELECT 
        srcgid,dstgid 
    FROM 
        小表 
    WHERE dt='20220302') as b
on a.gid = b.srcgid

解决：

1. 刚开始没仔细研究，做了两个优化：小表cache然后广播；大表select的时候重分区，增加并发数，还是没跑过，发现执行到left join的时候，数据膨胀得非常大，6000万的数据 join 20万数据，膨胀到千亿条。

2. 定位发现࿰

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lilyjoke

关注关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark Sql Left Join(多对多)导致的数据膨胀问题和解决

问题：大表left join小表，小表有10万条，大概就10M大小。大表有30多亿条，对应分区下有40个HDFS文件，简单的一个left join，跑了几个小时跑不出结果。INSERT OVERWRITE TABLE 结果表 PARTITION(dt='20220302') select vertice,types,nvl(dstgid,groupid) as gid from ( select vertice,groupid,types from
复制链接

扫一扫