spark sql 使用row_number 出现oom

数据倾斜是指在数据处理过程中,某些分区的数据量远远大于其他分区,导致某些任务的执行时间远远长于其他任务,最终导致任务失败或oom。以下是解决数据倾斜的几种方式:

  • 增加并行度:可以使用repartitioncoalesce方法增加分区数,从而增加并行度。但是要注意,增加分区数并不一定能解决数据倾斜问题,还需结合其他策略。

  • 使用随机数解决数据倾斜:如果数据倾斜是因为某些数据的key值太大导致的,可以使用随机数方式将key值分散到多个分区中,从而解决数据倾斜。具体的做法是:将key值与一个0到分区数之间的随机数相加得到新的key值,然后再进行处理。

完整内容请点击下方链接查看: 

spark sql 使用row_number 出现oom-问答-阿里云开发者社区-阿里云

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《              阿里云开发者社区用户服务协议》和《              阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写              侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值