flink任务监控- 利用Grafana和Prometheus实现实时计算平台任务监控

1 篇文章 0 订阅
0 篇文章 0 订阅

简介

最近负责公司基于flink实时计算平台的基本任务监控,包括重启通知,失败监控,一些关于flink 在pushgateway 上exported_job信息上报便于最后删除 pushgateway上的信息避免重复告警等,其实开始想的也是在网上找,没有找到,现在就总结一下自己的做法。第一次写博文不合理之处大家多多理解。

修改flink的flink-conf.yaml配置文件

具体配置讲解网上很多不赘述了

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: host
metrics.reporter.promgateway.port: 9091
metrics.reporter.promgateway.jobName: flinkxx #自定义
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: false
#metrics.reporter.promgateway.groupingKey: job_name=
metrics.reporter.promgateway.interval: 30 SECONDS

flink job 任务失败监控告警到实时计算平台

我们这一个指标监控主要是基于flink_jobmanager_job_uptime 这个指标进行了监控的,特性是在job任务存活时,他会按照你这个配置metrics.reporter.promgateway.interval上报频率递增。基于这个特点,当任务失败后这个数值就不会改变,就能监控到任务失败。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述
30秒为数据上报到 promgateway 频率 除以100为了数据好看,当job任务失败后数 flink上报的promgateway 的 flink_jobmanager_job_uptime指标值不会变化。这时候 ((flink_jobmanager_job_uptime)-(flink_jobmanager_job_uptime offset 30s))/100 值就会是0,配置告警

Grafana 上告警规则

直接上图:
在这里插入图片描述
在告警通知中可以邮件和webhook,webhook给实时计算平台接口告警,实时计算平台的一些自定义操作看你的需求怎样了,我们自己是做的任务状的修改为FAILED。这个里我们接口里做了通过 发起http delete 请求删除 pushgateway 上flink上报的 metrics 信息,删除调用http://localhost:9091/metrics/job/hlink_jobs6d35e8378ffc405c0a3d5a8d24574bf0,hlink_jobs6d35e8378ffc405c0a3d5a8d24574bf0 这个为 exported_job, 一个运行在yarn的flink任务会有根据任务运行模式会有两个,jobmanager的exported_job和taskmanager的exported_job。

webhook需要提前配合好在 告警时候直接引入.
上图:
在这里插入图片描述

flink job 网络延时或任务重启监控

这个告警也是基于flink_jobmanager_job_uptime 指标,为了恢复 网络延时或者重启产生的,flink任务失败已经把实时计算平台任务状态改成的FAILED从新改成RUNNING 状态。延时会导致查询公式**((flink_jobmanager_job_uptime offset 30s)-(flink_jobmanager_job_uptime))/1000** 的值 突然大数值小于-30(正常情况为-30),重启会导致flink_jobmanager_job_uptime指标清零从新从0值上报,导致查询公式**((flink_jobmanager_job_uptime offset 30s)-(flink_jobmanager_job_uptime))/1000** 计算值突然大于0(正常情况为-30)这时候我们就会发起告警。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述

Grafana 上告警规则

告警配置图:
在这里插入图片描述
具体配置告警的邮件通知和webhook http的自定义接口操作自己实时计算平台数据。

flink job 重启次数告警

这个告警也是基于flink_jobmanager_job_numRestarts 指标,这个flink job的重启次数,一般设置重启策略的在任务异常重启后这个数值会递增+1。我们用这个值表来上报每次重启后,在实时计算平台上的重启次数+1,展示给用户,也可以邮件告知用户。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述
也是利用当前值减去30秒前的值,如果等于1证明重启了一次 然后告警。

Grafana 上告警规则

告警策略图:
在这里插入图片描述
不多做解释使用了范围告警。

flink job 的exported_job 上报告警

这个主要用于上报flink 在pushgateway 上展示的 jobmanager的exported_job和taskmanager的exported_job。目的是为了后期删除pushgateway 上flink job失败或停止后的遗留信息。这个上报也是基于flink_jobmanager_job_uptime 指标。
在这里插入图片描述
对应的就是这些。不删会导致grafana查询过期数据job任务信息一致在。话不多说上图。

Grafana 上查询规则

数据查询策略图:
在这里插入图片描述

Grafana 上告警规则

数据告警策略图:
在这里插入图片描述
告警策略这样配置是我们自己的原因,在使用flink_jobmanager_job_uptime 指标上报exported_job自身自能上报 jobmanager的exported_job,我们自己在实时平台的接口中通过 Prometheus查询 http://localhost:9090/api/v1/query?query=flink_taskmanager_job_task_operator_select_rate{job_name=‘FlinkStreamWordCount’,job_id=‘930e368525d3314709be390d5756771b’} 查询拿到对应的 taskmanager的exported_job,flink_taskmanager_job_task_operator_select_rate这个指标是选择的一个信息比较全的指标。做两次告警原因是 这个查询在第一查询时候是查不到结果。所以用两次告警解决。应该是时间差的问题。不知道小伙伴有其他方法不,可以告诉我我优化一下哦。

告警数据样例

相信大家都能看懂吧

{
    "panelId":78,
    "dashboardId":4,
    "ruleName":"jobs_survival _state alert",
    "state":"alerting",
    "message":"任务运行状态告警",
    "ruleId":5,
    "title":"[Alerting] jobs_survival _state alert",
    "ruleUrl":"http://localhost:3000/d/-0rFuzoZk/flink-dashboard-hello?fullscreen&edit&tab=alert&panelId=78&orgId=1",
    "orgId":1,
    "evalMatches":[
        {
            "metric":"{exported_job=\"hlink_jobs381564b4d3e414fcb0e150814d34c77d\", host=\"fc_sit2_flink_com\", instance=\"localhost:9091\", job=\"flink-yarn-push\", job_id=\"2fb16d151ea92994a2eaf6317cfc8c3e\", job_name=\"flinkWordCount_new\"}",
            "value":1,
            "tags":{
                "instance":"localhost:9091",
                "job_name":"yousJobname",
                "exported_job":"hlink_jobs2be8c74c06b1f12a62a094f00944366f",
                "job_id":"3ae6929814d93f79ed9670070821d5a7",
                "host":"ssj_sit2_flwyiewi_com",
                "job":"flink-yarn-push"
            }
        }],
    "tags":{
    }
}

总结

毕业四年了,第一次写博文。总结的一些 flink 任务监控告警基于Grafana和Prometheus的使用技巧,希望能够对大家有一点小的启发吧。有些可能不是很好,大家有什么更好的方案可以分享给我,感谢观看!

  • 13
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
Grafana 是一个流行的开源数据可视化和监控解决方案,可以用于监控 Flink 应用程序的指标和日志。以下是一个基于 GrafanaFlink 监控模板: 1. 安装 Grafana 您可以从 Grafana 的官方网站 https://grafana.com/ 下载并安装 Grafana。 2. 安装 Flink 监控插件 Grafana 支持通过插件来集成各种数据源。Flink 官方提供了一个 Prometheus Exporter 插件,可以将 Flink 应用程序的指标导出到 Prometheus,从而可以通过 Grafana 来展示和监控这些指标。您可以从 https://github.com/apache/flink/tree/master/flink-metrics/flink-metrics-prometheus 下载该插件。 3. 配置 Prometheus 在将 Flink 应用程序的指标导出到 Prometheus 之前,您需要先配置 Prometheus。您可以从 Prometheus 的官方网站 https://prometheus.io/ 下载并安装 Prometheus。 在 Prometheus 的配置文件 `prometheus.yml` 中,添加以下内容: ``` scrape_configs: - job_name: 'flink' static_configs: - targets: ['<flink-jobmanager-host>:9250'] ``` 其中 `<flink-jobmanager-host>` 为 Flink JobManager 的主机名或 IP 地址。该配置会告诉 Prometheus 在 `<flink-jobmanager-host>:9250` 地址上抓取 Flink 的指标。 4. 配置 GrafanaGrafana 中,您需要配置一个数据源来连接到 Prometheus,并配置一个仪表盘来展示 Flink 应用程序的指标。 - 配置数据源 在 Grafana 的界面上,点击左侧的「Configuration」按钮,选择「Data Sources」,然后点击「Add data source」。 在「Add data source」页面中,选择「Prometheus」作为数据源类型,并填写以下信息: - Name: 数据源的名称,任意填写。 - URL: Prometheus 的地址,格式为 `http://<prometheus-host>:<prometheus-port>`。 - Access: 选择「Browser」。 点击「Save & Test」按钮,测试连接是否成功。 - 配置仪表盘 在 Grafana 的界面上,点击左侧的「+」按钮,选择「Import」。 在「Import」页面中,填写以下信息: - Grafana.com Dashboard: 输入 `8588`。 - Name: 仪表盘的名称,任意填写。 - Prometheus: 选择刚才配置的 Prometheus 数据源。 点击「Load」按钮,加载仪表盘模板。 5. 查看监控指标 在 Grafana 中,您可以查看 Flink 应用程序的各种指标,例如: - Task Manager 的状态和指标,如 Task Slots 的使用情况、内存使用情况等。 - Job 的状态和指标,如 Job 的执行时间、状态转换、吞吐量等。 - 系统的指标,如 JVM 的内存使用情况、CPU 使用情况等。 您可以根据自己的需求,定制化展示和监控这些指标。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值