FlinkOnYarn 监控 flink任务

Flink任务一般为实时不断运行的任务,如果没有任务监控,
任务异常时无法第一时间处理会比较麻烦。
这里通过调用API接口方式来获取参数,实现任务监控。

Flink任务监控(基于API接口编写shell脚本)
一 flink-on-yarn 模式
二 编写shell 脚本 

监控集群指标

http://rm-http-address:port/ws/v1/cluster/metrics

 响应正文

<clusterMetrics>

<appsSubmitted>**</appsSubmitted>

<appsCompleted>**</appsCompleted>

<appsPending>0</appsPending>

<appsRunning>**</appsRunning>

<appsFailed>**</appsFailed>

<appsKilled>**</appsKilled>

<reservedMB>0</reservedMB>

<availableMB>**</availableMB>

<allocatedMB>**</allocatedMB>

<pendingMB>0</pendingMB>

<reservedVirtualCores>0</reservedVirtualCores>

<availableVirtualCores>**</availableVirtualCores>

<allocatedVirtualCores>**</allocatedVirtualCores>

<pendingVirtualCores>0</pendingVirtualCores>

<containersAllocated>**</containersAllocated>

<containersReserved>0</containersReserved>

<containersPending>0</containersPending>

<totalMB>**</totalMB>

<totalVirtualCores>**</totalVirtualCores>

<utilizedMBPercent>53</utilizedMBPercent>

<utilizedVirtualCoresPercent>**</utilizedVirtualCoresPercent>

<rmSchedulerBusyPercent>0</rmSchedulerBusyPercent>

<totalNodes>**</totalNodes>

<lostNodes>0</lostNodes>

<unhealthyNodes>**</unhealthyNodes>

<decommissioningNodes>0</decommissioningNodes>

<decommissionedNodes>0</decommissionedNodes>

<rebootedNodes>0</rebootedNodes>

<activeNodes>**</activeNodes>

<shutdownNodes>0</shutdownNodes>

<totalAllocatedContainersAcrossPartition>0</totalAllocatedContainersAcrossPartition>

<crossPartitionMetricsAvailable>false</crossPartitionMetricsAvailable>

</clusterMetrics>

clusterMetrics 对象的元素

项目数据类型描述
apps已提交int提交的申请数量
应用已完成int完成的申请数量
apps待定int待处理的申请数量
应用程序正在运行int正在运行的应用程序数
apps失败int失败的应用程序数
应用已杀死int被终止的应用程序数
保留MB预留的内存量(以 MB 为单位)
可用MB可用内存量(以 MB 为单位)
已分配MB分配的内存量(以 MB 为单位)
总MB总内存量(以 MB 为单位)
保留虚拟核心保留的虚拟核心数
可用虚拟核心可用虚拟核心数
分配的虚拟核心分配的虚拟核心数
totalVirtualCores 虚拟核心数虚拟核心总数
容器已分配int分配的容器数
容器保留int保留的容器数
容器挂起int待处理的容器数
总节点数int节点总数
活动节点int活动节点数
丢失节点int丢失的节点数
不健康的节点int不正常的节点数
停用节点int停用的节点数
已停用节点int停用的节点数
rebooted节点int重新启动的节点数
shutdown节点int关闭的节点数

获取所有application

curl -s http://XXX:8088/ws/v1/cluster/apps

获取 state值为 RUNNING 的application任务

curl -s http://XXX:8088/ws/v1/cluster/apps?state=RUNNING 

获取这个任务单个信息 

curl -s http://XXX:8088/ws/v1/cluster/apps/application_1619074605427_0063 |jq .app.state

请注意,根据安全设置,用户可能无法看到所有字段。 

项目数据类型描述
编号字符串应用程序 ID
用户字符串启动应用程序的用户
名字字符串应用程序名称
队列字符串提交应用程序的队列
字符串根据 ResourceManager 的应用程序状态 - 有效值是 YarnApplicationState 枚举的成员:NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED
finalStatus字符串应用程序的最终状态(如果已完成)(由应用程序本身报告)有效值是 FinalApplicationStatus 枚举的成员:UNDEFINED、SUCCEEDED、FAILED、KILLED
进展以百分比表示的申请进度
trackingUI字符串跟踪 URL 当前指向的位置 - 历史记录(用于历史记录服务器)或 ApplicationMaster
trackingUrl字符串可用于跟踪应用程序的 Web URL
诊断字符串详细的诊断信息
clusterId集群 ID
应用程序类型字符串应用程序类型
application标签字符串应用程序的逗号分隔标记
优先权字符串所提交申请的优先权
开始时间应用程序启动的时间(自纪元以来的毫秒)
完成时间应用程序完成的时间(以纪元以来的毫秒数为单位)
elapsedTime自应用程序启动以来经过的时间(以毫秒为单位)
amContainer日志字符串应用程序主容器日志的 URL
amHostHttp地址字符串应用程序主机的节点 http 地址
amRPCAddress字符串应用程序主机的 RPC 地址
已分配MBint分配给应用程序正在运行的容器的内存总和(以 MB 为单位)
已分配VCoresint分配给应用程序正在运行的容器的虚拟核心的总和
running容器int当前为应用程序运行的容器数
memorySeconds应用程序分配的内存量(兆字节-秒)
vcore秒数应用程序分配的 CPU 资源量(虚拟内核 - 秒)
queueUsagePercentage应用正在使用的队列资源的百分比
clusterUsage百分比应用正在使用的群集资源的百分比。
抢占ResourceMB抢占式容器使用的内存
preemptedResourceVCores抢占容器使用的虚拟核心数
numNonAMContainer抢占int抢占的标准容器数
numAMContainer抢占int抢占的应用程序主容器数
logAggregationStatus字符串日志聚合的状态 - 有效值是 LogAggregationStatus 枚举的成员:DISABLED、NOT_START、RUNNING、RUNNING_WITH_FAILURE、SUCCEEDED、FAILED、TIME_OUT
unmanaged应用程序布尔应用程序是否处于非托管状态。
appNodeLabelExpression字符串节点标签表达式,用于标识默认情况下应在其上运行应用程序容器的节点。
amNodeLabel表达式字符串节点标签表达式,用于标识应用程序的 AM 容器预期在其上运行的节点。

jq,是linux一个很方便的json处理工具

通俗的说就是一个能够接受json,处理json,输出json的程序,反正很好用。

安装起来也非常的方便,直接使用yum即可安装。linux下离线安装jq工具 - 代码天地 (codetd.com)

yum install jq

编写shell脚本

由于公司离线yarn和实时yarn 采用是分开的方式。
只需要监控实时yarn 任务有没有处于RUNNING,达到监控的目的
这里shell脚本也只记录,flink-on-yarn 这种部署方式任务监控
shell脚本水平有限,大家多多谅解,欢迎指导

shell脚本实现功能:
获取线运行job任务,记录到日志文件。下一次脚本调用时候读取日志文件,判断状态。
不是RUNNING,就告警同时重新记录日志。

#!/bin/bash

Joblist=`cat /opt/shell/logs/flink_job.log`    #获取记录job的log文件
let i=0  #获取任务数
let log_count=0  #获取日志中的任务数
start_count=RUNNING  #判断任务是否存在异常

############## 1 判断日志文件内容是否为空,为空时自动读取flink任务并记录到日志文件 #########
if [ -z "$Joblist" ]
then
	while :
	do
		job_id[$i]=`curl -s http://XXX:8088/ws/v1/cluster/apps?state=RUNNING |jq .apps.app[$i].id`

		if [ ${job_id[$i]} = "null" ];then
			break
		else
			echo ${job_id[$i]}
			echo ${job_id[$i]}>>/opt/shell/logs/flink_job.log
			let i++
		fi
	done
fi


############## 2 读取文件中JOB任务 ##################

let i=0
while read line
do
	JOB[$i]=$line
	let i++
done</opt/shell/logs/flink_job.log

log_count=$i #获取日志中的任务数


########### 3  判断任务状态,是否为RUNNIG,不是则邮件告警   ###############
for ((j=0;j<i;j++))
do
	JOB_ID=${JOB[$j]//\"}
	JOB_status=`curl -s http://XXXX:8088/ws/v1/cluster/apps/$JOB_ID  | jq .app.state`
	JOB_NAME=`curl -s http://XXX:8088/ws/v1/cluster/apps/$JOB_ID  | jq .app.name`
	START=$[`curl -s http://XXX:8088/ws/v1/cluster/apps/$JOB_ID | jq  .app.startedTime` / 1000]

#	echo "JOB_NAME: "$JOB_NAME
#	echo 启动时间: `date -d @$START +"%F %H:%M:%S"`
#	echo "JOB_status: " ${JOB_status//\"}

#echo -e "【$JOB_NAME】 \n JOB_ID: $JOB_ID \n 启动时间: `date -d @$START +"%F %H:%M:%S"` \n 检查时间: `date "+%Y-%m-%d %H:%M:%S"` \n 目前状态: $JOB_status"
#echo "=============================================="

	if [ ${JOB_status//\"} != "RUNNING" ];then
		SUBJECT="【异常告警】Flink任务异常"
		TEXT="Flink任务 【$JOB_NAME】 异常故障 \n\nJOB_ID: $JOB_ID\n\n启动时间: `date -d @$START +"%F %H:%M:%S"` \n\n检查时间: `date "+%Y-%m-%d %H:%M:%S"`  \n\n目前状态: $JOB_status"
		echo -e $TEXT | mail -s $SUBJECT     邮箱地址
		start_count=erron
	fi
done


########### 4  出现任务异常,重新读取job 任务记录到日志文件   ###############

let i=0
if [ $start_count == "erron" ];then


echo '重新写入日志文件'
	while :
	do
		job_id[$i]=`curl -s http://XXXX:8088/ws/v1/cluster/apps?state=RUNNING |jq .apps.app[$i].id`

		if [ ${job_id[$i]} = "null" ];then
			break
		elif  [ $i == 0 ]; then
			echo ${job_id[$i]}>/opt/shell/logs/flink_job.log

		else
			echo ${job_id[$i]}>>/opt/shell/logs/flink_job.log
		fi
		let i++
	done
	start_count=RUNNING
fi

########### 5  判断线上任务数是否一致,是否有新任务增加   ###############



let i=0
while :
do
	job_id[$i]=`curl -s http://XXX:8088/ws/v1/cluster/apps?state=RUNNING |jq .apps.app[$i].id`

	if [ ${job_id[$i]} = "null" ];then
		break
	else

		let i++
	fi
done
let count=$i #线上任务数
echo "==========================线上最新RUNNING状态任务数: "$count
echo "==========================日志RUNNING状态任务数: "$log_count



if [ ! $count -eq $log_count ]; then
	echo "现有RUNNING状态任务数不相等于已记录的任务数"
	echo  ${job_id[0]} >/opt/shell/logs/flink_job.log
	for ((i=1;i<count;i++))
	do
		echo "重新写入JOB: "${job_id[$i]}
		echo ${job_id[$i]}>> /opt/shell/logs/flink_job.log

	done

fi

echo "======================当前时间: `date "+%Y-%m-%d %H:%M:%S"`======================================="
echo  ================================================================================================
echo  =====================================本次crontab监控结束========================================
echo  ================================================================================================

Yarn REST API 使用指南-阿里云开发者社区

Apache Hadoop 3.0.1 – ResourceManager REST API。

监控jobId

 http://***.**.**.**:****/proxy/applicationId/jobs

您好!对于监控 Flink 任务,可以使用 Prometheus 来收集和展示各种指标。下面是一些步骤: 1. 首先,确保已经安装和配置了 Prometheus。您可以在官方网站上找到相关的文档和指南。 2. 在 Flink 的配置文件中,启用 Prometheus 监控。找到 `flink-conf.yaml` 文件,并添加以下配置: ``` metrics.reporters: prom metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter ``` 3. 在 Prometheus 的配置文件中,添加 Flink 的作业管理器(JobManager)和任务管理器(TaskManager)的地址。找到 `prometheus.yml` 文件,并添加以下配置: ``` scrape_configs: - job_name: 'flink' static_configs: - targets: ['<jobmanager-host>:<jobmanager-port>', '<taskmanager-host>:<taskmanager-port>'] ``` 请将 `<jobmanager-host>` 和 `<jobmanager-port>` 替换为您的 Flink JobManager 的主机和端口,将 `<taskmanager-host>` 和 `<taskmanager-port>` 替换为您的 Flink TaskManager 的主机和端口。 4. 重启 Prometheus 和 Flink,使配置生效。 5. 现在,您可以通过访问 Prometheus 的 Web 界面来查看 Flink监控指标。在浏览器中输入 `http://<prometheus-host>:<prometheus-port>`,将 `<prometheus-host>` 和 `<prometheus-port>` 替换为您的 Prometheus 主机和端口。 在 Prometheus 界面上,您可以选择和自定义要查看的指标,并进行图表展示和警报设置等操作。 希望这些步骤对您有帮助!如果有任何疑问,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值