flink从入门到精通,跟着我学这些就够了【2】flink ui详解

上一篇已经介绍了如何运行作业,现在看一下flink ui各模块详情。后面再逐章剖析源码

1. 首页(Overview)

在这里插入图片描述

  • JobManager 和 TaskManager 信息
    • JobManager 地址和端口:显示当前 Flink 集群中 JobManager 的网络地址和端口号,JobManager 负责作业的调度和管理。
    • TaskManager 数量:展示集群中可用的 TaskManager 数量,TaskManager 是执行具体任务的工作节点。
    • Slot 信息:显示总插槽数和可用插槽数。插槽是 Flink 资源管理的基本单位,每个 TaskManager 有一定数量的插槽,任务会被分配到这些插槽中执行。
  • 作业信息【重点,图中箭头所示】
    • 运行中的作业列表:列出当前正在运行的作业,包括作业名称、作业 ID、开始时间、持续时间等信息。
    • 已完成和失败的作业:可以查看过去已完成或失败的作业记录,方便进行故障排查和性能分析。

2. 作业详情页(Jobs)

在这里插入图片描述

  • 作业图(Job Graph)
    • 可视化展示:以图形化的方式展示作业的逻辑拓扑结构,包括数据源(如文件、Kafka 等)、转换操作(如 Map、FlatMap 等)和数据汇(如文件、控制台等)。在 WordCount 作业中,你可以看到从数据源读取数据、进行单词拆分和计数,最后将结果输出的整个流程。
    • 节点信息:鼠标悬停在每个节点上,可以查看节点的详细信息,如操作名称、并行度等。
  • 任务管理器(TaskManagers)
    • 任务分布:显示作业的任务在各个 TaskManager 上的分布情况,帮助你了解资源的使用情况和负载均衡情况。
    • 任务状态:可以查看每个任务的状态,如运行中、已完成、失败等。
  • 指标监控(Metrics)
    • 吞吐量:显示作业的输入和输出吞吐量,即每秒处理的记录数或字节数。在 WordCount 作业中,可以监控单词的读取和处理速度。
    • 延迟:展示数据处理的延迟情况,帮助你评估作业的实时性。
    • 资源利用率:包括 CPU、内存、网络 I/O 等资源的使用情况,有助于发现性能瓶颈。

3. 任务详情页(Tasks)

在这里插入图片描述

  • 任务列表

    • 子任务信息:列出作业中每个操作的所有子任务,包括子任务的 ID、状态、开始时间、持续时间等。
    • 任务状态监控:实时更新子任务的状态,如运行中、已完成、失败等。如果某个子任务失败,可以查看详细的错误信息进行故障排查。
  • 任务指标

    • 输入和输出指标:显示每个子任务的输入和输出记录数、字节数等信息,帮助你了解数据在各个子任务之间的流动情况。
    • 处理时间指标:展示子任务的处理时间,包括平均处理时间、最大处理时间等,有助于优化作业性能。
  • 内存模型【重要‼️】
    用于分析任务执行情况
    在这里插入图片描述
    在这里插入图片描述

4. 配置页(Configuration)

在这里插入图片描述

  • 全局配置信息
    • Flink 集群的配置参数:显示 Flink 集群的各种配置参数,如内存分配、并行度设置、网络配置等。你可以在这里查看和验证作业运行时使用的配置信息。
  • 作业特定配置
    • 作业的配置参数:如果作业有特定的配置参数,也会在这个页面显示,方便你了解作业的个性化设置。

5. 堆内存分析页(Heap)【如内存模型】

  • 堆内存使用情况
    • 实时监控:以图表的形式实时展示 JobManager 和 TaskManager 的堆内存使用情况,帮助你及时发现内存泄漏或内存不足的问题。
    • 历史数据:可以查看堆内存使用的历史数据,分析内存使用的趋势和波动情况。

6. 线程转储页(Thread Dump)【如内存模型】

  • 线程信息
    • 线程状态:显示 JobManager 和 TaskManager 中所有线程的状态,包括运行中、等待、阻塞等。
    • 线程堆栈信息:可以查看每个线程的堆栈信息,用于定位线程阻塞或死锁的问题。
7. 故障容灾checkpoint

生产中故障恢复能力至关重要,所以单独拿出来讲
在这里插入图片描述
Checkpoint 相关页面为用户提供了对 Flink 作业的检查点(Checkpoint)操作和状态进行监控与管理的功能。检查点是 Flink 实现容错机制的关键特性,它可以在作业出现故障时将作业的状态进行持久化保存,以便后续能够从保存的状态恢复作业,继续进行处理。

a. 检查点概览(Checkpoint Overview)
  • 检查点统计信息
    • 总检查点数量:显示作业总共触发的检查点数量,包括成功的、失败的和进行中的检查点。
    • 成功检查点数量:记录成功完成的检查点的数量。成功的检查点意味着作业的状态已经被完整且正确地保存到了指定的存储位置。
    • 失败检查点数量:展示执行过程中失败的检查点的数量。失败的原因可能有很多,如网络问题、存储系统故障、状态过大等。
    • 最近一次成功检查点时间:显示最近一次成功完成检查点的时间戳,有助于了解作业状态最后一次被持久化的时间。
  • 检查点大小和持续时间
    • 最小、最大和平均检查点大小:反映了检查点所占用的存储空间大小,这些信息可以帮助你评估状态的规模,以及存储系统的压力。
    • 最小、最大和平均检查点持续时间:展示了检查点从开始到完成所花费的时间,持续时间过长可能表示作业状态复杂或者存储系统性能不佳。
b. 检查点列表(Checkpoint List)
  • 检查点记录:该列表会详细列出每个检查点的相关信息,包括:
    • ID:每个检查点的唯一标识符,用于区分不同的检查点。
    • 状态:显示检查点的当前状态,如 “Completed”(已完成)、“In Progress”(进行中)、“Failed”(失败)等。
    • 触发时间:记录检查点开始触发的时间。
    • 持续时间:显示检查点从触发到结束所花费的时间。
    • 大小:表示检查点所占用的存储空间大小。
    • 对齐时间:对于使用了精确一次(Exactly-Once)语义的作业,该时间表示在进行检查点操作时,数据对齐所花费的时间。
  • 详细信息查看:点击列表中某个检查点的 ID,可查看该检查点的详细信息,如参与检查点的各个任务的状态、状态存储的位置等。
c. 检查点配置(Checkpoint Configuration)
  • 检查点间隔:显示作业配置的检查点触发间隔时间,即每隔多长时间触发一次检查点操作。合理设置检查点间隔可以在容错能力和性能之间取得平衡。
  • 超时时间:表示检查点操作允许的最长执行时间。如果检查点在超时时间内未能完成,则会被标记为失败。
  • 最大并发检查点数:指定在同一时间内可以同时进行的检查点的最大数量。该参数可以控制检查点操作对作业正常处理的影响。
  • 保留策略:说明检查点的保留规则,例如保留最近的几个检查点,或者根据时间来保留检查点。保留策略可以帮助在需要时恢复到特定时间点的作业状态。
d. 检查点状态存储(State Backend)
  • 状态后端类型:显示作业所使用的状态后端类型,如 MemoryStateBackend、FsStateBackend、RocksDBStateBackend 等。不同的状态后端适用于不同的场景,例如 MemoryStateBackend 适用于测试环境,而 FsStateBackend 和 RocksDBStateBackend 更适合生产环境。
  • 存储位置:如果使用的是支持外部存储的状态后端(如 FsStateBackend 或 RocksDBStateBackend),会显示检查点数据实际存储的位置,如 HDFS 路径等。
<think>嗯,用户想了解Flink消费Pulsar时,在Flink UI上如何显示数据量。首先,我需要回忆一下Flink的监控指标机制。Flink通过Metrics系统收集各种运行时数据,比如吞吐量、延迟等。当消费Pulsar这样的消息队列时,可能需要用到Flink的Pulsar连接器,比如flink-connector-pulsar。 接下来,用户提到的UI显示数据量,应该是指像接收的记录数、发送的记录数这类指标。Flink的任务管理器(TaskManager)会暴露这些指标,但可能需要配置特定的报告器,比如Prometheus,然后通过Prometheus和Grafana来展示。不过用户可能希望直接在Flink UI上看到,这需要确认哪些指标是默认可见的。 然后想到,Flink UI的“Metrics”选项卡允许用户选择不同的指标,比如Source的numRecordsIn、numBytesIn,或者Kafka连接器的相关指标。但Pulsar连接器是否也暴露类似的指标呢?可能需要查看Pulsar连接器的文档,确认是否支持这些指标。 另外,用户之前提到引用了添加flink-metrics-prometheus的jar包到lib目录下。这可能涉及到将指标导出到Prometheus,但用户的问题是关于Flink UI直接显示,所以可能需要先确保Pulsar连接器本身是否正确注册了这些指标到Flink的Metrics系统。 可能的步骤包括:检查Pulsar连接器版本是否与Flink兼容,确认是否启用了相关指标,以及在Flink UI中如何查找这些指标。此外,可能需要配置flink-conf.yaml中的指标报告设置,比如启用Prometheus或其他报告器,但用户的问题更偏向于UI显示,可能默认不需要额外配置,但需要确认连接器是否支持。 还有,用户可能遇到的问题是UI中没有显示预期的指标,这时候需要排查是否缺少依赖,或者指标名称是否正确。例如,Pulsar的Source可能会注册类似pulsarConsumer.records-consumed这样的指标,但需要具体查看文档。 总结下来,回答需要分步骤说明如何配置和查看这些指标,包括添加依赖、配置Prometheus报告器(如果需要外部监控),以及在Flink UI中导航到对应的指标。同时,需要提醒用户注意版本兼容性和指标名称的正确性。</think>关于Flink消费Pulsar数据后在Flink UI显示数据量的配置方法,需通过Flink的Metrics系统实现。以下是实现步骤: ### 一、指标配置步骤 1. **添加Pulsar连接器依赖** 在`pom.xml`中添加与Flink版本匹配的Pulsar连接器,例如: ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-pulsar_2.12</artifactId> <version>1.17.0</version> </dependency> ``` 2. **启用Prometheus指标报告(可选但推荐)** - 将`flink-metrics-prometheus-*.jar`放入`/lib`目录[^1] - 在`flink-conf.yaml`中添加配置: ``` metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter ``` ### 二、Flink UI数据量查看方法 在作业运行时,通过以下路径查看: 1. **TaskManager指标** - `numRecordsIn`:输入记录总数 - `numBytesIn`:输入字节总数 - `numRecordsOut`:输出记录总数 - 指标路径:Flink UI > Task Managers > Metric选项卡 2. **Pulsar Consumer指标(需连接器支持)** - `pulsarConsumer.records-consumed`:已消费消息数 - `pulsarConsumer.bytes-consumed`:已消费字节数 - 指标路径:Flink UI > Job > Metrics选项卡 > Add Metric ### 三、指标解析示例 $$ totalThroughput = \frac{numRecordsIn}{timeWindow} $$ 该公式表示通过输入记录数除以时间窗口计算吞吐量。若`numRecordsIn`指标持续为0,需检查Pulsar主题分区分配或反序列化逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值