pyspark-05 sparkUI使用


UI页面

  1. 一般是集群ip:4040进入ui页面
  2. 主要是:Job,Stage,Storage,Environment,Executor
  3. spark任务由一系列算子组成Stage,不同Stage组成Job,分发给不同Executor执行。主要看这3个页面观察任务执行情况

Job

在这里插入图片描述

  1. 查看整个任务执行时间线,比如Driver和Executor各自启动的时间
  2. 查看Jobs执行情况,观察是否有几个Job一直卡着没执行,是否有问题

在这里插入图片描述
3. 特别是在这种很多executor场景下,观察是否只有少部分executor在运行任务

在这里插入图片描述
4. 每个job都有指明代码文件xxx.py以及对应的行数,可以及时定位

Stages

可以从Job页面点击对应的Stage跳转过来,查看Stage的执行情况
在这里插入图片描述

  1. 查看stage组成情况,由哪些算子形成的DAG
    在这里插入图片描述
    在这里插入图片描述
  2. 可以细看是哪个stage一直在active中执行,具体时间

Executor

在这里插入图片描述

  1. 主要看看不同executor的运行情况,内存使用,是否有大量shuffle操作。
  2. 查看每个executor的日志

总结

  1. Job,Stage和Executor都是有关系的,可以从Job跳转查看具体Stage情况,然后再查看对应Executor执行情况。结合代码行数和打印的log定位问题
  2. 主要看是否数据倾斜,导致部分Job一直在运行中且很慢。
  3. 主要看是否有大量shuffle操作,从代码层面避免。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>