spark优化(一)--瓶颈分析

1.查看Web UI

  • job找出运行慢的job,方便定位代码块
    job
  • stages 找出运行慢的stage,方便定位代码块,观察shuffle量,可跟踪具体log,看各个阶段运行时间
  • stages
    stage_detail
    stage_deail2
    stage_detail3
  • storage 缓存的大小是否在预期范围内,有时候过大的缓存也可能导致运行慢
  • environment 一般不需要看,查看参数时可以看
  • executor 观察是否有任务倾斜(大多数task集中在某个executor)和数据倾斜以及GC状况是否良好,以及查看Fail task的log
  • sql 查看sql的执行过程,输入输出及其大小。看是否存在优化的空间(比如hint 指定join的方式),具体问题具体分析

2.根据log信息大致定位慢的原因
logerr
3.查看代码块
通过上述步骤,大部分情况下我们可以找到是哪个job哪个stage的哪块代码(或者sql)运行的慢,此时我们需要进行初步排查,看代码逻辑是否合理
通常情况下,一个业务可以通过多种代码逻辑实现,当你接手别人的代码的时候,不应该是调整参数(比如盲目增大内存),而是应该要来业务文档和技术文档(没有?自己梳理吧),结合代码和文档梳理,当前代码是否为业务逻辑的最优解。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值