【需求】:监控flink 1.16.2 on hadoop 3.2.4的任务
【环境】:在linux服务器上已经部署hadoop,flink on yarn,prometheus
【操作】:部署pushgateway并启动,在flink-conf.yaml追加监控配置:
metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: hadoop1
metrics.reporter.promgateway.port: 9091
metrics.reporter.promgateway.jobName: flink-metrics
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: false
metrics.reporter.promgateway.interval: 30 SECONDS
重新提交yarn-per-job任务,在yarn页面查看任务正常运行,然后在prometheus的graph页面上找不到flink字眼的监控指标(pushgateway页面显示正常但是为空白)
①prometheus的graph页面找flink字眼的指标
②pushgateway页面查看是空白
【报错信息】:没有报错信息,prometheus和pushgateway基本上没什么日志,flink这边任务正常运行,找不到flink metrics推送的相关日志,苦苦难以下手。
【解决方案】:灵机一动,看了一下flink官网,惊奇地发现flink 1.16.2的监控配置做了修改,然后就马不停蹄修正配置参数如下:
metrics.reporter.promgateway.factory.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporterFactory
metrics.reporter.promgateway.hostUrl: http://hadoop1:9091
metrics.reporter.promgateway.jobName: flink-metrics
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: false
metrics.reporter.promgateway.interval: 30 SECONDS
然后查看旧一点版本的flink 1.12发现,metrics.reporter.promgateway.factory.class变了,host和port合并为hostUrl。最后需求实现贴图:
最终当然是在grafana实现可视化图表展示。
总结:多看官网
接收报错信息及解决方案邮箱:flinkxabc@yeah.net