Flink 运维监控与指标采集实战（Prometheus + Grafana 全流程）

晴天彩虹雨

已于 2025-05-16 10:29:23 修改

阅读量577

点赞数 23

分类专栏： Flink + Kafka 实时数仓实战文章标签： flink 运维 prometheus

于 2025-05-15 21:32:34 首次发布

本文链接：https://blog.csdn.net/u010492647/article/details/147992572

版权

Flink + Kafka 实时数仓实战专栏收录该内容

14 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

一、引言：为什么 Flink 运维监控如此重要？

在实时计算场景中，Flink 作业 7×24 小时运行，对性能、资源、故障感知、状态变化的实时监控非常关键。没有有效的运维可观测体系：

不知道任务是否在稳定运行
发生问题难以快速定位
无法感知背压、延迟、反压等状态

因此，构建完善的 Flink 运维监控体系 是保障实时数据平台稳定的关键。

二、Flink 自带的监控体系概览

Flink 默认通过 Metrics 系统提供以下监控能力：

模块	示例指标
JobManager	`flink_jobmanager_cpu_load`
TaskManager	`flink_taskmanager_network_io`
Operator	`numRecords`

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晴天彩虹雨

关注关注

23
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Flink 运维监控与指标采集实战

晴天彩虹雨的博客

05-10

587

在实时任务处理中，监控是确保业务连续性和系统稳定性的关键。由于任务失败、数据延迟和资源瓶颈等问题往往不易察觉，构建一个全面的Flink运维监控体系变得尤为重要。Flink提供了丰富的内部指标，这些指标可以通过MetricsReporter采集到外部系统如Prometheus和InfluxDB。为了有效监控，可以部署Prometheus来采集Flink指标，并通过Grafana进行可视化展示。此外，开发者可以通过MetricGroup实现自定义指标的暴露，以提升业务的可观测性。监控系统应包括对Checkpoi

Flink整合Prometheus Pushgetway讲解与实战操作

数据与算法架构提升之路专栏

02-09

1020

Pushgateway是Prometheus的一个组件，prometheus server默认是通过Exporter主动获取数据（默认采取pull拉取数据）

参与评论您还未登录，请先登录后发表或查看评论

基于Prometheus+Grafana打造企业级Flink监控系统

微信搜：import_bigdata，大数据领域硬核原创作者

01-18

1165

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源在进入本文之前，我先问大家一个问题，你们公司或者业务系统上是如何对生产集群上的数据同步任务、实时计算任务或者是调度任务本身的执行...

Pushgateway+Prometheus监控Flink/Doris

someInNeed的博客

07-27

1007

思路方案。

运维监控专项学习笔记-id:1-典型监控架构的组件介绍-采集、存储、告警、可视化

文字记录时间

09-19

1454

运维监控专项学习笔记-id:1-典型监控架构的组件介绍-采集、存储、告警、可视化

StarRocks实战——表设计规范与监控体系

爱吃辣条的博客

02-27

2458

StarRocks实战——表设计规范与监控体系

大数据运维实战指南：大数据监控体系与自动化运维（第六篇）

资深全栈架构师，乐于在 CSDN 分享技术见解，与大家携手共进，共攀技术巅峰！

03-11

1044

#监控体系 #自动化运维 #Prometheus #混沌工程 #云原生。[[3]] 数据监控体系搭建方法论 - 人人都是产品经理[[3]][[2]] 万亿级大数据监控平台建设实践 - 博客园[[2]][[6]] Spug开源自动化运维平台设计文档[[6]][[7]] 企业级大数据监控系统分层设计[[7]][[5]] 阿里云数据监控体系构建指南[[5]][[9]] 自动化运维管理平台架构设计[[9]][[8]] 应用级自动化运维建设思路[[8]]，获取最新技术干货与实战案例！

系统可观测性——分布式链路追踪系统

庄小焱

12-01

2275

本文深入探讨了分布式链路追踪系统的必要性与实施细节。随着软件架构的复杂化，传统的日志分析方法已不足以应对问题定位的需求。文章首先解释了链路追踪的基本概念，如Trace和Span，并讨论了其基本原理。接着，文章介绍了SkyWalking这一开源链路追踪系统，包括其架构设计、部署方式、数据采集与存储等关键特性。最后，通过大众点评的实践案例，文章展示了链路追踪在实际业务中的应用效果，强调了其在提升分布式系统可观测性方面的重要性。

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

资深全栈架构师，乐于在 CSDN 分享技术见解，与大家携手共进，共攀技术巅峰！

03-09

1091

系统稳定性保障通过Prometheus+Grafana实现集群健康度监控，确保Hadoop、Spark等分布式系统的可用性≥99.99%实施NameNode HA+JournalNode架构，实现HDFS故障切换时间≤30秒[[6]]资源利用率优化通过YARN Capacity Scheduler动态调整资源池，将集群CPU利用率从45%提升至78%[[10]]在AWS EMR实施Spot Instance竞价实例策略，节省计算成本40%[[9]]数据安全防护。

单物理机上部署多个TaskManager与调优 Flink 集群

RodJohnsonDoctor的专栏

05-15

130

单物理机上如何部署一个master多个slaves与调优 Flink 集群。

Flink 1.13.2 日志配置优化：保留最近 7 天日志文件

RodJohnsonDoctor的专栏

05-15

233

Apache Flink 1.13.2 默认的日志配置存在局限性，无法满足生产环境中长时间保留日志的需求。默认配置仅基于文件大小滚动日志，且最多保留10个文件，缺乏时间维度的管理。为解决这一问题，可以通过修改log4j.properties文件，实现日志按天滚动并保留最近7天的日志文件。具体优化包括：使用TimeBasedTriggeringPolicy按天滚动日志，并通过DefaultRolloverStrategy设置日志保留策略。这一优化在确保日志可用性的同时，有效控制了存储成本，便于故障排查和历史数

基于 Flink 的实时推荐系统：从协同过滤到多模态语义理解

最新发布

小白的大数据之旅的博客

05-16

423

本文介绍了基于 Flink 的实时推荐系统，从协同过滤到多模态语义理解的技术演进。推荐系统通过分析用户行为数据，精准推送用户感兴趣的物品。协同过滤算法通过用户相似性进行推荐，而基于内容的推荐则通过物品特征匹配用户偏好。Flink 作为实时处理的“超级引擎”，具备高吞吐量、低延迟、流批一体化和强容错性，广泛应用于实时用户行为分析和物品更新推荐。多模态语义理解则通过融合文本、图像、音频等多模态数据，提升推荐的精准度和用户体验。文章还提供了基于 Flink 的实时用户行为分析代码示例，展示了如何通过 Kafka

flink的TaskManager 内存模型

jiedaodezhuti的博客

05-13

932

Flink TaskManager 的内存模型是一个多层管理体系，从 JVM 进程到具体任务的内存分配均有明确的逻辑划分和配置策略。

Flink SQL、Hudi 、Doris在数据上的组合应用

LXP

05-16

761

Flink 是 Apache 顶级的流批一体化计算引擎，Flink SQL 是其提供的 SQL 接口，支持用 SQL 语法实现实时数据处理（如实时 ETL、实时聚合、实时报表等），并支持流（实时）和批（历史）数据的统一处理。：Hudi（Hadoop Upserts Deletes and Incrementals）是 Apache 顶级项目，专注于解决数据湖（如基于 HDFS、S3 的存储）的。，专注于解决高并发、低延迟的复杂查询需求（如多维聚合、即席查询），适合构建企业级数据分析平台。

Flink运维要点

weixin_42795092的博客

05-16

610

通过以上策略，可以构建稳定、高效的 Flink 运维体系，快速响应并解决各类生产问题。建议定期进行故障演练（如模拟 TaskManager 崩溃），验证应急预案的有效性。

flinksql实践(从kafka读数据)

m0_63069778的博客

05-13

548

本案例是基于flinksql实现的，将逐步实现从kafka读写数据，聚合查询，关联维表(外部系统)等。

没经过我同意，flink window就把数据存到state里的了？

强哥叨逼叨

05-14

799

源码分析完了，写个小总结吧本地变量只能在当前算子实例、当前方法调用中生存，不会参与序列化；重启或缩容后会丢失。（包括我们手动声明的ValueState、也包括 WindowOperator 背后隐式的ListState）会被 Flink 序列化到 StateBackend，参与 checkpoint/savepoint、支持容错恢复和重分区。虽然 Window API 没让你在代码里getState()，但其核心实现却在算子初始化时自动注册了 ListStateDescriptor，并在。

深入剖析 Linux 进程的睡眠与唤醒机制

Cheese_Y的博客

05-13

976

Linux 进程的睡眠与唤醒机制是操作系统实现高效资源管理和任务调度的基石。从基本概念到实现机制，再到实际应用与调试，这一机制贯穿于系统运行的各个环节。深入理解并熟练掌握这一机制，不仅有助于优化系统性能，还能在面对进程阻塞、资源争用等问题时快速定位和解决问题。随着 Linux 内核的不断演进，睡眠与唤醒机制也在持续优化，以适应日益复杂的应用场景和硬件环境。以上详细阐述了 Linux 进程睡眠和唤醒的相关内容。若你对其中某部分还想深入了解，或有其他技术方向想探讨，欢迎随时和我说。

docker（四）使用篇一：docker 镜像仓库

m0_73682725的博客

05-15

1079

前文我们已经介绍了 docker 并安装了 docker，下面我们将正式步入使用环节，本章是第一个使用教学：docker 镜像仓库。

Prometheus+Grafana 监控flink

02-14

### 配置 Prometheus 和 Grafana 实现 Flink 的监控 #### 安装与配置 Prometheus 为了实现对 Flink 的有效监控，Prometheus 是核心组件之一。由于 Flink on YARN 作业的动态特性，直接由 Prometheus 抓取数据存在挑战。因此引入了 PushGateway 中间件来解决这一问题。 - **安装 Prometheus** 下载并解压官方提供的二进制文件即可完成安装过程[^1]。 - **配置 Prometheus** 编辑 `prometheus.yml` 文件，在 scrape_configs 节点下添加针对 PushGateway 数据源的抓取规则： ```yaml scrape_configs: - job_name: 'pushgateway' static_configs: - targets: ['localhost:9091'] ``` 此设置使得 Prometheus 可以定期从指定地址获取推送过来的数据。 #### 使用 PushGateway 收集临时性度量指标对于像 Flink 这样的批处理或流处理框架来说，其任务可能具有短暂生命周期的特点。此时可以通过修改 Flink 应用程序代码，使其能够向 PushGateway 发送自定义 Metrics；或者利用 Flink 提供的内置 Metric Reporter 功能指向 PushGateway 地址。当应用程序结束运行之后，这些短期存在的 Metrics 不会立即消失而是继续存在于 PushGateway 上等待被采集[^3]。 #### 安装与配置 Grafana Grafana 主要用于可视化展示收集到的各种性能指标信息。 - **下载与启动 Grafana** 访问镜像站点加速下载速度，并按照常规方式启动服务进程[^2]: ```bash nohup ./bin/grafana-server web & ``` 默认情况下监听于本地 3000 端口上提供 Web UI 接入支持，默认用户名密码均为 admin。 - **连接至 Prometheus 数据源** 登录后进入 Data Sources 页面新增一个名为 "Prometheus" 类型的选择项，填入之前部署好的 Prometheus Server URL 即可建立关联关系。 - **创建仪表板** 导入预先设计好适用于 Flink 监控场景下的模板化面板布局方案（例如 ID 为 11049），这样就能快速获得一组合理的视图组合来进行日常运维管理操作了。 ---