spark WebuI查看spark作业的执行情况

在这里插入代码片我们在集群上运行了spark作业怎么看执行情况,作业执行时间,用到的那些算子,job具体的阶段划分等等信息,其实官方就已经很好的给我提供了这些信息查看的方式web界面;

先来说一下实际中用到的这个解决的问题,工作中因为我要通过hive来进行数据分析,而用到的引擎就是spark,其中我用到了hive的自定义udf函数实现查到的数据发往kafka,但是因为不知道底层hive转换为spark的什么算子来执行,如果像collect算子,top等算子就会造成数据全部拉到driver端处理,就容易造成内存溢出,

所以最后我通过查看spark historyserver查看执行过的任务具体是怎么进行任务划分,又是用什么算子实现的,来确定有没有这个问题,最终看到的执行图就是这样的

在这里插入图片描述

可以看到使用的算子不会造成数据都到driver端这种问题。

那具体怎么使用这个web界面来查看spark job的执行情况,其实官方已经给了很好的说明,而且对于每个参数所表示的意义都进行了说明

在这里插入图片描述

上面就是官方的一点介绍图片,就不在这里详细介绍了,需要可以自己去官网查看一下。

链接地址:[http://spark.apache.org/docs/latest/web-ui.html#jobs-tab]

总结:

学习一个新的技术官方基本是最好的指导书,也是最全面和最准确的,当然直接看会有一些难度,可以参考一些博客文章,来进行学习,最后不一致的地方最好以官方文档为主;

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值