Spark性能调优案例-多表join优化,减少shuffle

该博客分享了Spark性能调优的一个实际案例,通过排查发现任务中job过多、shuffle操作频繁及重复逻辑问题。解决方案包括合并job、优化join策略以及使用group by + max (split(concat(xxx))) 替换row_number。经过验证,优化后任务耗时从1小时降至10分钟,显著提高了效率。
摘要由CSDN通过智能技术生成

背景

A任务在凌晨1点到3点,平均耗时1h,且是核心公共任务,急需优化。
整体逻辑示意图:

// 从tableA读取一次数据,放到临时表t1
DROP TABLE IF EXISTS temp.tmp_xx_$date_1;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_1
as 
select 
xxx
from  tableA
where xxxx;

// 从临时表t1读取和转换数据,得临时表t2
DROP TABLE IF EXISTS temp.tmp_xx_$date_2;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_2
as 
SELECT
    device_id
   ,c2
FROM
(
    SELECT
        device_id
       ,c2
       ,ROW_NUMBER() OVER (PARTITION BY device_id ORDER BY time DESC) AS num
    FROM
    (
    	   select 
		 device_id
          ,c2
       from  temp.tmp_xx_$date_1
       where !isempty(c2) 
    )t
)t
WHERE t.num=1;

// 从临时表t1读取和转换数据,得临时表t3
DROP TABLE IF EXISTS temp.tmp_xx_$date_3;
CREATE TABLE 
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值