UI页面
- 一般是集群ip:4040进入ui页面
- 主要是:Job,Stage,Storage,Environment,Executor
- spark任务由一系列算子组成Stage,不同Stage组成Job,分发给不同Executor执行。主要看这3个页面观察任务执行情况
Job

- 查看整个任务执行时间线,比如Driver和Executor各自启动的时间
- 查看Jobs执行情况,观察是否有几个Job一直卡着没执行,是否有问题

3. 特别是在这种很多executor场景下,观察是否只有少部分executor在运行任务

4. 每个job都有指明代码文件xxx.py以及对应的行数,可以及时定位
Stages
可以从Job页面点击对应的Stage跳转过来,查看Stage的执行情况

- 查看stage组成情况,由哪些算子形成的DAG


- 可以细看是哪个stage一直在active中执行,具体时间
Executor

- 主要看看不同executor的运行情况,内存使用,是否有大量shuffle操作。
- 查看每个executor的日志
总结
- Job,Stage和Executor都是有关系的,可以从Job跳转查看具体Stage情况,然后再查看对应Executor执行情况。结合代码行数和打印的log定位问题
- 主要看是否数据倾斜,导致部分Job一直在运行中且很慢。
- 主要看是否有大量shuffle操作,从代码层面避免。
392

被折叠的 条评论
为什么被折叠?



