spark 任务监控

最新推荐文章于 2024-03-29 21:46:09 发布

wang972779876

最新推荐文章于 2024-03-29 21:46:09 发布

阅读量1k

点赞数

文章标签： spark 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang972779876/article/details/116272972

版权

Spark 提供了restful api的方式用于spark任务的监控api截图如下：api访问方式：

http://history-ip:18088/api/v1/

官方文档：http://spark.apache.org/docs/latest/monitoring.html

Spark 分为不同的stage执行所以spark没有提供方式直接查看任务执行成功和失败，可以通过/applications 获取application_id 和attempt_id 然后根据 /applications/app_id/attempt_id/jobs获取每个stage的执行情况，进而获取整个任务的状态，同样也可以监控任务的执行时长等情况。下面主要说明/applications api和/application/[app_id]/jobs api其中[app_id] 为1）若有attempt_id 则为application_id/attempt_id,2)不存在attempt_id 为application_id.

/applications

传递参数见上图，需要注意对于日期为GMT为0的日期，而不是所在地的日期，根据时间访问时，需要将时区设置为0时区，python中可以通过datetime.datetime.utcnow()获取

返回值：

[ {

"id" : "application_1597231412870_3608",

"name" : "DwMicbiTrafficLogStatOrigMain: 20200813",

"attempts" : [ {

"attemptId" : "1",

"startTime" : "2020-08-13T03:29:37.826GMT",

"endTime" : "2020-08-13T03:32:04.860GMT",

"lastUpdated" : "2020-08-13T03:32:04.948GMT",

"duration" : 147034,

"sparkUser" : "root",

"completed" : true,

"appSparkVersion" : "2.4.0-cdh6.2.0",

"endTimeEpoch" : 1597289524860,

"lastUpdatedEpoch" : 1597289524948,

"startTimeEpoch" : 1597289377826

} ]

}]

里面封装了任务的大致的信息，其中主要的是applicationId和attemptId，注意attemptId可能有多个。这两个参数拼接起来可以构建为[app-id]

2. /applications/[app-id]/jobs

数据参数见上图，

返回：

[ {

"jobId" : 1,

"name" : "runJob at SparkHadoopWriter.scala:78",

"submissionTime" : "2020-08-10T22:19:58.391GMT",

"completionTime" : "2020-08-10T22:24:00.128GMT",

"stageIds" : [ 1, 2 ],

"status" : "SUCCEEDED",

"numTasks" : 10,

"numActiveTasks" : 0,

"numCompletedTasks" : 10,

"numSkippedTasks" : 0,

"numFailedTasks" : 4,

"numKilledTasks" : 0,

"numCompletedIndices" : 10,

"numActiveStages" : 0,

"numCompletedStages" : 2,

"numSkippedStages" : 0,

"numFailedStages" : 0,

"killedTasksSummary" : { }

}, {

"jobId" : 0,

"name" : "runJob at SparkHadoopWriter.scala:78",

"submissionTime" : "2020-08-10T22:19:37.736GMT",

"completionTime" : "2020-08-10T22:19:58.281GMT",

"stageIds" : [ 0 ],

"status" : "SUCCEEDED",

"numTasks" : 5,

"numActiveTasks" : 0,

"numCompletedTasks" : 5,

"numSkippedTasks" : 0,

"numFailedTasks" : 0,

"numKilledTasks" : 0,

"numCompletedIndices" : 5,

"numActiveStages" : 0,

"numCompletedStages" : 1,

"numSkippedStages" : 0,

"numFailedStages" : 0,

"killedTasksSummary" : { }

} ]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 任务监控

Spark提供了restful api的方式用于spark任务的监控api截图如下：api访问方式：http://history-ip:18088/api/v1/官方文档：http://spark.apache.org/docs/latest/monitoring.htmlSpark 分为不同的stage执行所以spark没有提供方式直接查看任务执行成功和失败，可以通过/applications 获取application_id和attempt_id 然后根据 /application...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。