一、前言
大数据处理离不开spark(pyspark),日常工作经常需要在有限的资源下,要求高效而优雅的跑出大数据下的pyspark脚本,因此读懂spark ui,分析spark运行情况就非常重要了。
二、定位pyspark运行慢的原因 主要检查的点如下图:
1、SPARK任务执行慢(运行中)
查看分析的基本步骤:
1. 打开app运行链接,进入spark ui
2. 查看stage界面,并找到执行慢的stage(一个shuffle操作就是一个stage)
一般能眼看出哪个stage慢 有的时候没有明显的慢,但是整体很慢,拉到最下面,会有很多失败重试的stage
3. 点击进入stage链接,进入task运行界面