spark on yarn 查看结束APPLICATION的执行情况

需求

有时候一个spark任务执行结束了,但是发现结果并不尽人意。这时候想要查看这个APPLICATION的执行情况,看一下是哪个地方出了问题导致程序执行的慢。

但是再去yarn上去看的时候发现程序停止了,无法再查看web UI了该怎么办呢

微信公众号:大数据报文

解决方案

虽然无法查看当前任务的实时执行情况了,但是spark提供了查看历史任务的功能。默认是关闭的。

想要查看历史任务的执行情况需要进行如下配置。

1. 修改spark-default文件,添加如下内容,如果没有这个文件,请拷贝spark-default.sh.template为spark-default.sh进行修改(下同)

spark.master                     spark://master:7077
#开启事件日志
spark.eventLog.enabled           true
#这里是日志的存放路径,需要与该代码块中的最后一项保持一致
spark.eventLog.dir               hdfs://master:8020/spark/eventLogs
#这一句是访问历史任务日志的地址
spark.yarn.historyServer.address master:18080
#压缩
spark.eventLog.compress          true
#与第三项保持一致
spark.history.fs.logDirectory    hdfs://master:8020/spark/eventLogs

2.修改spark-env.sh文件,添加如下内容

#端口号18080与上面文件配置确保一致,retainedApplications表示保留历史任务的个数。路径与上面配置保持一致
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=7 -Dspark.history.fs.logDirectory=hdfs://master:8020/spark/eventLogs"

3.把上面配置文件拷贝到集群其他位置

#进入#SPARK_HOME/sbin,启动spark history-server
start-history-server.sh
#使用jps可以看到进程
$>jps
21066 HistoryServer

现在在浏览器输入上面配置的ip:port,可以看到历史任务列表

在yarn中找到任务,点击history也是同样的效果

THAT'S ALL.

欢迎关注微信公众号:大数据报文

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值