sparkUI入门

最新推荐文章于 2024-08-01 11:03:32 发布

lucasmaluping

最新推荐文章于 2024-08-01 11:03:32 发布

阅读量301

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/lucasmaluping/article/details/105765341

版权

Spark 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

1 代表job页面，在里面可以看到当前应用分析出来的所有任务，以及所有的excutors中action的执行时间。
2 代表stage页面，在里面可以看到应用的所有stage，stage是按照宽依赖来区分的，因此粒度上要比job更细一些
3 代表storage页面，我们所做的cache persist等操作，都会在这里看到，可以看出来应用目前使用了多少缓存
4 代表environment页面，里面展示了当前spark所依赖的环境，比如jdk,lib等等
5 代表executors页面，这里可以看到执行者申请使用的内存以及shuffle中input和output等数据
6 这是应用的名字，代码中如果使用setAppName，就会显示在这里
7 是job的主页面。

job页面

主页可以分为两部分，一部分是event timeline，另一部分是进行中和完成的job任务。

第一部分event timeline展开后，可以看到executor创建的时间点，以及某个action触发的算子任务，执行的时间。通过这个时间图，可以快速的发现应用的执行瓶颈，触发了多少个action。

第二部分的图表，显示了触发action的job名字，它通常是某个count,collect等操作。有spark基础的人都应该知道，在spark中rdd的计算分为两类，一类是transform转换操作，一类是action操作，只有action操作才会触发真正的rdd计算。具体的有哪些action可以触发计算，可以参考api。collect at test2.java:27描述了action的名字和所在的行号，这里的行号是精准匹配到代码的，所以通过它可以直接定位到任务所属的代码，这在调试分析的时候是非常有帮助的。Duration显示了该action的耗时，通过它也可以对代码进行专门的优化。最后的进度条，显示了该任务失败和成功的次数，如果有失败的就需要引起注意，因为这种情况在生产环境可能会更普遍更严重。点击能进入该action具体的分析页面，可以看到DAG图等详细信息。

stage页面

在Spark中job是根据action操作来区分的，另外任务还有一个级别是stage，它是根据宽窄依赖来区分的。

窄依赖是指前一个rdd计算能出一个唯一的rdd，比如map或者filter等；宽依赖则是指多个rdd生成一个或者多个rdd的操作，比如groupbykey reducebykey等，这种宽依赖通常会进行shuffle。

因此Spark会根据宽窄依赖区分stage，某个stage作为专门的计算，计算完成后，会等待其他的executor，然后再统一进行计算。

stage页面的使用基本上跟job类似，不过多了一个DAG图。这个DAG图也叫作血统图，标记了每个rdd从创建到应用的一个流程图，也是我们进行分析和调优很重要的内容。比如上面的wordcount程序，就会触发acton，然后生成一段DAG图：

storage页面

storage页面能看出目前使用的缓存，点击进去可以看到具体在每个机器上，使用的block的情况。

environment页面

这个页面一般不太用，因为环境基本上不会有太多差异的，不用时刻关注它。

excutors页面

这个页面比较常用了，一方面通过它可以看出来每个excutor是否发生了数据倾斜，另一方面可以具体分析目前的应用是否产生了大量的shuffle，是否可以通过数据的本地性或者减小数据的传输来减少shuffle的数据量。

lucasmaluping

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkUI入门

1 代表job页面，在里面可以看到当前应用分析出来的所有任务，以及所有的excutors中action的执行时间。2 代表stage页面，在里面可以看到应用的所有stage，stage是按照宽依赖来区分的，因此粒度上要比job更细一些3 代表storage页面，我们所做的cache persist等操作，都会在这里看到，可以看出来应用目前使用了多少缓存4 代表environment页面，里面...
复制链接

扫一扫

专栏目录