如何对CDH集群上用户提交的作业进行监控告警

以CDH6.0.1版本为例,其资源管理框架是YARN,对于所有跑在YARN上的job(或app),都可以通过YARN的ResourceManager(简称RM)提供的restful API请求查询其运行状态。其GET请求命令格式如下:

GET http(or https)://rm-http(or https)-address:port/ws/v1/cluster/apps

返回结果为json格式的所有YARN记录的job信息。也可在上述命令的URL后面添加多个过滤参数,支持的过滤参数有如下几个:

states: RM记录的job运行状态,多个时以逗号分割,有效值包括(NEW, NEW_SAVING, SUBMITTED, ACCEPTED, RUNNING, FINISHED, FAILED, KILLED)

finalStatus: 由job自己报告的最终状态,有效值包括(UNDEFINED, SUCCEEDED, FAILED, KILLED)

user: 启动job的用户

queue: job运行时所在的YARN资源池队列

limit: 限制返回job的个数

startedTimeBegin: job开始执行时所在时间段的开始时间点

startedTimeEnd: job开始执行时所在时间段的结束时间点

finishedTimeBegin: job执行完成时所在时间段的开始时间点

finishedTimeEnd: job执行完成时所在时间段的结束时间点

applicationTypes: job的类型,多个时以逗号分割

applicationTags: job的标签,多个时以逗号分割

deSelects: 返回结果中需要跳过的字段

API具体用法见:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html#Cluster_Applications_API

一、失败作业监控

import sys
import json
import time
import subprocess
​
reload(sys)
sys.setdefaultencoding('utf-8')
​
if len(sys.argv) < 2:
    print "FAILED Error! Need a time interval param(Unit s) to run!"
    exit(0)
# 获取在now - interval到now时间段内执行完成的作业
interval = int(sys.argv[1]) * 1000
now = int(time.time() * 1000)
before = now - interval
cmd = 'curl -k --compressed -H "Accept: application/json" -X GET "https://192.168.0.39:8090/ws/v1/cluster/apps?&finalStatus=FAILED&finishedTimeBegin={0}&finishedTimeEnd={1}"'.format(
    before, now)
getAppsProc = subprocess.Popen(cmd, stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True)
outPut, err = getAppsProc.communicate()
if not getAppsProc.returncode:
    out = json.loads(outPut)
    if out['apps']:
        for app in out['apps']['app']:
            print 'appId: {0}'.format(app['id'])
            print 'name: {0}'.format(app['name'])
            print 'finalStatus: {0}'.format(app['finalStatus'])
            print 'appType: {0}'.format(app['applicationType'])
            print 'startedTime: {0}'.format(time.ctime(app['startedTime'] / 1000))
            print 'finishedTime: {0}'.format(time.ctime(app['finishedTime'] / 1000))
            print 'elapsedTime: {0}s'.format(app['elapsedTime'] / 1000)
            print 'user: {0}'.format(app['user'])
            print 'queue: {0}'.format(app['queue'])
            print '-------------------------------------'
        print '{0} jobs failed'.format(len(out['apps']['app']))

 

二、执行超时作业监控

import re
import sys
import json
import time
import subprocess
​
reload(sys)
sys.setdefaultencoding('utf-8')
​
JOB_TYPE_PATTERN = ".*stream.*"
pattern = re.compile(JOB_TYPE_PATTERN, re.I)
if len(sys.argv) < 3:
    print "FAILED Error! Need a duration time of job execution param(Unit min) to run!"
    exit(0)
# 要监控的作业名
job_name = str(sys.argv[1])
# 该作业预期执行时长
duration = int(sys.argv[2])
cmd = 'curl -k --compressed -H "Accept: application/json" -X GET "https://192.168.0.39:8090/ws/v1/cluster/apps?&states=running&applicationTypes=SPARK"'
getAppsProc = subprocess.Popen(cmd, stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True)
outPut, err = getAppsProc.communicate()
if not getAppsProc.returncode:
    out = json.loads(outPut)
    if out['apps']:
        for app in out['apps']['app']:
            app_name = app['name']
            elapsed_time = app['elapsedTime'] / 60000.0
            if (not pattern.match(app_name)) and elapsed_time > duration and job_name == app_name:
                print 'startedTime: {0}'.format(time.ctime(app['startedTime'] / 1000))
                print 'elapsedTime: %.1fmin' % (elapsed_time)
                print 'The job [{0}] not finished yet'.format(app_name)
                print '-------------------------------------'

注:192.168.0.39:8090是ResourceManager所在主机的WEB监听端口;当通过curl命令访问其https地址时如果出现curl: (35) Cannot communicate securely with peer: no common encryption algorithm(s)错误时,需通过yum -y install curl重新更新一下curl命令的依赖,或者加上-k参数。

最后可以利用ZABBIX对执行失败和超时的作业进行告警,只需要配置好相应的监控项、触发器和告警发送媒介即可。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要将作业提交CDH6.3.2的YARN集群上,需要使用以下命令: ``` spark-submit --master yarn --deploy-mode client --class <main-class> <application-jar> <application-arguments> ``` 其中,`<main-class>`是你的应用程序的主类,`<application-jar>`是你的应用程序的jar包路径,`<application-arguments>`是你的应用程序的参数。 例如,如果你的应用程序的主类是`com.example.MyApp`,jar包路径是`/path/to/myapp.jar`,应用程序需要传递两个参数`arg1`和`arg2`,则提交作业的命令如下: ``` spark-submit --master yarn --deploy-mode client --class com.example.MyApp /path/to/myapp.jar arg1 arg2 ``` 提交作业后,Spark将在YARN集群上启动应用程序,并将日志输出到YARN的应用程序日志中。你可以使用YARN的命令行工具或Web UI来监视应用程序的运行状态和日志输出。 ### 回答2: 在CDH6.3.2框架中,使用spark-submit命令可以将作业提交到YARN资源管理器,实现分布式部署执行作业的功能。 具体步骤如下: 1. 在终端中使用spark-submit命令,指定主类名、执行参数等信息。 例如: ```bash spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-memory 2g \ --executor-cores 2 \ /path/to/examples.jar 100 ``` --class参数指定执行的主类名,对应的jar文件已经上传至HDFS上。 --master参数指定使用YARN作为资源管理器,--deploy-mode参数指定执行模式为集群模式。 --num-executors参数指定申请的Executor个数。 --driver-memory参数指定Driver进程需要使用的内存大小,同样可以指定Executor进程的内存和核数。 2. 执行以上命令后,YARN资源管理器会为任务分配相应的资源,并启动作业执行。 3. 可以通过YARN界面查看作业的运行状况,包括Container的个数、启动时间、资源使用情况等。 4. 执行完成后,可以在日志文件和任务的输出目录中查看作业的输出结果。 总的来说,通过spark-submit命令提交作业到YARN非常方便,只需指定相应的参数即可实现作业的分布式部署,提高执行效率并节省时间。 ### 回答3: CDH 6.3.2 是包含了 Hadoop、Hive、Spark 等组件的大数据平台。要提交 Spark 作业到 YARN 集群,需要使用 spark-submit 命令。 首先,要确保已经安装了 CDH 6.3.2 和 Spark。然后,在本地编写好 Spark 作业代码,并上传到集群中的一个路径。 接下来,通过以下命令提交 Spark 作业: ``` spark-submit \ --class com.example.YourMainClass \ --master yarn \ --deploy-mode client \ --num-executors 4 \ --executor-memory 4g \ --executor-cores 2 \ /path/to/your/spark/job.jar \ arg1 arg2 ``` 其中,`--class` 参数指定主类,`--master yarn` 表示使用 YARN 集群作为 Spark 的资源管理器,`--deploy-mode client` 表示客户端模式, `--num-executors`、`--executor-memory` 和 `--executor-cores` 分别是设定 Spark 应用程序执行所需的 executor 数量、每个 executor 占用的内存和 CPU 核心数量。`/path/to/your/spark/job.jar` 是你上传的 Spark 作业包的路径,`arg1` 和 `arg2` 是你的应用程序所需要的参数。 提交成功后,Spark 应用程序就会在 YARN 上执行,输出结果会被打印到标准输出中或者存储到指定路径。 需要注意的是,提交的 Spark 作业路径和参数是相对于 YARN 集群上的路径和参数,而不是本地路径和参数。另外,如果采用了集群管理工具 Cloudera Manager 管理 CDH 6.3.2,也可以通过其提供的界面来提交 Spark 作业,更加方便快捷。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值