Flink大状态作业调优——DataStream篇

吵吵叭火

已于 2024-07-27 22:10:20 修改

阅读量469

点赞数 17

分类专栏： # Flink 文章标签：大数据

于 2024-07-27 15:20:15 首次发布

本文链接：https://blog.csdn.net/SHWAITME/article/details/140735995

版权

Flink 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、Flink 状态（State）简介

在流式计算中有些操作一次处理一个独立的事件(比如解析一个事件), 有些操作却需要记住多个事件的信息(比如窗口操作)。那些需要记住多个事件信息的操作就是有状态的。流式计算分为无状态计算和有状态计算两种情况。状态可以理解为：历史数据（中间结果）

二、大状态作业导致的问题

随着作业状态的持续膨胀，多个问题逐步显现，对作业的整体性能产生不利影响：

性能下降与作业反压：随着有状态算子状态的累积，I/O资源的瓶颈问题日益凸显，引发作业反压。这不仅增加了处理延迟，还导致吞吐量（TPS）降低。
资源利用效率低下：有状态算子的CPU资源常出现大量闲置，且随着状态规模的增长，资源浪费问题更加严重。
检查点与快照机制的时效性问题：状态规模的扩大使得检查点和快照过程更易超时，这不仅增加了作业重启后追赶数据的时间成本，也对端到端的 Exactly-once 语义的实现带来了额外延迟。
启动与扩缩容过程缓慢：在作业启动和扩缩容过程中，每个算子节点需从全量数据中恢复并重建本地数据库，这一过程的时间消耗与状态规模成正比。拥有大状态作业的状态加载往往成为启动和扩缩容执行速度的瓶颈，进而延长业务中断时间。

三、大状态作业诊断调优整体思路

在处理 Flink 作业时，如下这三类问题通常由大规模状态的管理和维护所引起：运行时性能减缓、检查点或快照超时问题以及作业启动和扩缩容过程缓慢。为了优化这些大状态作业，建议遵循以下步骤：

识别作业瓶颈：通过诊断工具结合具体业务产出情况，对作业目前的运行情况进行更为深入的了解，进而确定作业的性能瓶颈是否与状态管理有关。
采用更新的引擎版本：Flink在状态模块持续优化，最新版本的引擎通常具有更高的性能。阿里云实时计算的Flink企业版——Ververica Runtime (VVR)，与 Apache Flink 完全兼容，并内置了专为流计算优化的状态存储 Gemini。Gemini 针对状态访问进行了设计，有效提升了性能、检查点和作业恢复能力，且参数自适应，无需手动配置。结合实时计算产品，VVR 为用户提供了企业级的优化体验，确保性能达到最佳。在进行性能调优前，请确保已采用最新版引擎和相关配置。
针对不同问题采取特定调优策略：

（1）运行时性能下降（作业反压）：在这种情况下，调优应遵循以下顺序：首先优化SQL层，其次基于TTL（生存时间）减少状态数据，然后调整内存和并发资源以降低磁盘读取频率。

（2）检查点或快照超时：在处理此类问题时，应先优化作业的运行时性能以减轻反压，接着优化同步阶段的性能，然后调整并发资源以降低单个并发任务的状态量，最后考虑使用原生快照功能来提高效率。

（3）作业启动和扩缩容缓慢：如果本地磁盘资源充足，可以优先考虑启用状态本地恢复（Local Recovery）功能。同时，利用 Gemini 的懒加载特性和延迟剪裁技术，可以有效提升作业的启动和扩缩容速度。

四、Flink Datastream 作业大状态导致反压的调优原理与方法

4.1 基本原理

Flink 支持 Operator State 和 Keyed State 两种状态，其中大状态问题通常由 Keyed State 引起。Flink Datastream API 支持通过显式的ValueState、ListState、MapState等状态接口来维护 Keyed State，以及为其设置过期时间

4.2 问题诊断方法

在Flink作业遭遇性能瓶颈时，系统往往表现出明显的反压现象。这种反压可能由多种因素引起，但主要的原因之一是作业状态规模的持续膨胀，直至超出内存限制。此时，状态存储引擎不得不将部分不频繁使用的状态数据移至磁盘，而磁盘与内存在数据存取速度上的巨大差异，使得磁盘 IO 操作成为数据处理效率的瓶颈（RocksDB大状态）。尤其在 Flink 的计算过程中，如果算子频繁地从磁盘读取状态数据，将显著增加作业的延迟，降低整体处理速度，成为性能问题的根源。

4.3 调优方法

4.3.1 反复确认业务逻辑，合理设计状态

在使用Flink进行状态管理时，首先需要审视业务逻辑，确保只存储必要的数据，避免产生不必要的状态信息。合理设计状态结构和存储内容是控制状态增长的关键所在。仅存储业务所需的最小化状态信息，有利于避免状态的无限增长。

设置合理状态生命周期减小状态大小

Flink 提供了丰富的状态时间特性，如 ValueStateDescriptor 的 setTTL 方法，可以设置状态的生命周期，确保状态在一定时间后自动过期并被清除。同时，开发者也可以直接调用 clear() 或 remove() 方法，显式删除不再需要的状态条目。合理利用这些特性，可以有效控制状态规模。