Spark作业信息的获取

本文详细介绍了如何在Yarn模式下获取Spark作业信息,包括正在运行和历史作业的查看,以及两种获取作业信息的方法:解析作业记录文件和使用REST API。解析文件涉及对HDFS中特定目录的文件处理,而REST API适用于Spark 1.3及以上版本,提供了方便的作业信息获取接口。文章还提到了在多主机环境下获取作业信息的挑战及解决策略。
摘要由CSDN通过智能技术生成

目录


提前说明


作业信息的查看

正在运行作业

一般作业运行后,可打开http://<driver-node>:4040查看作业的运行情形,如下所示,
spark-job-web

历史作业查看

打开spark-defaults.conf文件,增加如下配置,意为将记录Spark作业的历史信息,并将其写到HDFS的/user/spark/applicationHistory目录下。

spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://hadoop0:8020/user/spark/applicationHistory

打开spark-env.sh,增加如下配置,意为打开历史界面时,从HDFS的/user/spark/applicationHistory目录下读取历史作业信息。这一步也可以通过在History Server的启动命令中添加参数来解决,即sbin/start-history-server.sh hdfs://hadoop0:8020/user/spark/applicationHistory

export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop0:8020/user/spark/applicationHistory"

启动History Server成功后,即可在http://<history-server>:18080界面查看所有历史作业。当然上述的history-server写你刚刚启动History Server的那台主机。

值得注意的是,CDH安装后默认完成了上述所有步骤并自带了History Server,唯一的不同点是端口是18088而不是18080,此点需特别注意。


作业信息的获取

这一节讲作业信息的获取,即获取作业的各个指标,以用来进行二次开发。

方式1—解析作业记录文件

既然作业的信息都存在HDFS的/user/spark/applicationHistory目录下,那么可以解析该目录下所有文件,以获取作业信息。

  • 正在运行作业
    正在运行作业的命名类似于application_1465461051654_0001.inprogress
  • 历史作业
    运行作业的命名类似于application_1465461051654_0002

方式2—REST API

Spark1.3以上的版本提供了REST API,以方便开发者快速获取作业信息,参见Spark1.6.1–Monitoring and Instrumentation

  • 正在运行作业

    • Request:获取正在运行作业的全部job

      curl -i http://localhost:4040/api/v1/applications/local-1465476936241/jobs
      
    • Response

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值