【经验02】记录一次生产spark离线任务产生数据倾斜的问题处理

项目背景

客户需要每月生成T+1的全国数据,数据总量大概有10T的样子,资源配置是120多台的hive集群,跑脚本使用spark跑,spark因为使用RAM内存跑,所以比较快,个人也是经验不足,持续学习中。

  • 生产上的脚本如下

优化前的脚本


insert overwrite table dwd_temp_si_eei_ib02_ib03_repeat PARTITION(AAF018)
SELECT ${bdp.system.bizmonth} aae043,
       current_timestamp() aae859,a.aac002, a.AAC002_dup_110_cnt, a.AAC002_dup_110_area,a.aaf018
  FROM (SELECT a.aaf018,a.aac002,
               COUNT(distinct b.aac001) AAC002_dup_110_cnt,
               concat_ws(',', sort_array(collect_set(distinct b.AAB359))) AAC002_dup_110_area
          FROM dwd_temp_ib02 a join ods.ods_si_eei_ac60 b join ods.ods_si_eei_ac01 c                
			   ON (a.aae043 = ${bdp.system.bizmonth
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吾爱大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值