flink原理（一）状态的TTL管理、容错机制

最新推荐文章于 2024-05-25 11:47:03 发布

undo_try

最新推荐文章于 2024-05-25 11:47:03 发布

阅读量2.2k

点赞数

分类专栏： # flink 文章标签： flink java 大数据

本文链接：https://blog.csdn.net/qq_44665283/article/details/125931421

版权

flink 专栏收录该内容

26 篇文章 16 订阅

订阅专栏

flink原理（一）状态的TTL管理、容错机制

1、状态的ttl管理（time to live）

1、TTL的基本概念

flink可以对状态数据进行存活时长管理，即“新陈代谢”
淘汰的机制主要是基于存活时间
存活时长的计时器可以在数据被读、被写时候重置
Ttl存活管理粒度是元素级别的（list state中的每个元素，map state中的每个entry）

代码示例：

 public void open(Configuration parameters) throws Exception {
        StateTtlConfig config =  StateTtlConfig.newBuilder(Time.seconds(60))
                      .useProcessingTime()  //默认是用eventTime语义，如果要用processingTime语义，需要显示指定
                      .updateTtlOnCreateAndWrite() // ttl重置刷新的策略，数据被创建或者被写入更新，就将ttl计时重置
//                      .updateTtlOnReadAndWrite()   // ttl重置刷新的策略，数据被读取或者被写入更新，就将ttl计时重置
                      .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) // 状态数据的可见性，如果状态中存在还未清理掉的，但是已经超出ttl的数据，是否让用户程序可见
                      .build();


        // 创建一个list状态的描述器
        ListStateDescriptor<String> stateDescriptor = new ListStateDescriptor<>("events", String.class);


        // 为描述器设置启用ttl功能
        stateDescriptor.enableTimeToLive(config);
    }

2、TTL的相关参数以及机制的解析

Ttl的相关配置参数全部封装在StateTtlConfig中

private StateTtlConfig(
        StateTtlConfig.UpdateType updateType,
        StateTtlConfig.StateVisibility stateVisibility,
        StateTtlConfig.TtlTimeCharacteristic ttlTimeCharacteristic,
        Time ttl, 
        StateTtlConfig.CleanupStrategies cleanupStrategies) {

StateTtlConfig参数详解：

public enum UpdateType {
        /** TTL is disabled. State does not expire. */
        Disabled,
        /**
         * 计时从写入或更新时开始（重置）
         */
        OnCreateAndWrite,
        /** 同上，不过读取时候也会计时重置 */
        OnReadAndWrite
    }

StateVisibility(过期数据可见策略)

public enum StateVisibility {
        /** Return expired user value if it is not cleaned up yet. */
        ReturnExpiredIfNotCleanedUp,
        /** Never return expired user value. */
        NeverReturnExpired
    }

TtlTimeCharacteristic(Ttl计时的时间语义)

  public enum TtlTimeCharacteristic {
        /**
         * Processing time, see also <code>
         * org.apache.flink.streaming.api.TimeCharacteristic.ProcessingTime</code>.
         */
        ProcessingTime
    }

Time ttl
数据存活时间，一个简单的长整形参数。

StateTtlConfig.CleanupStrategies(过期数据清理策略)

 /** Fixed strategies ordinals in {@code strategies} config field. */
        enum Strategies {
            FULL_STATE_SCAN_SNAPSHOT,
            INCREMENTAL_CLEANUP,
            ROCKSDB_COMPACTION_FILTER
        }

1)INCREMENTAL_CLEANUP:增量清除
可以选择增量式清理状态数据，在状态访问或/和处理时进行。如果某个状态开启了该清理策略，则会在存储后端保留一个所有状态的惰性全局迭代器。
每次触发增量清理时，从迭代器中选择已经过期的数进行清理。

每当访问状态时，都会驱动一次过期检查(算子注册了很多key的 state，一次检查只针对其中一部分,由参数cleanupSize决定)
算子持有一个包含所有key的迭代器，每次检查后，迭代器都会向前advance指定的key数量。

本策略，针对“本地状态空间”，且只用于HashMapStateBackend。

2)FULL_STATE_SCAN_SNAPSHOT
在进行全量快照（checkpoint）时，清理掉过期数据;

注意:只是在生成的checkpoint数据中不包含过期数据;在本地状态空间中，并没有做清理;

本策略，针对“快照”生效。

3)ROCKSDB_COMPACTION_FILTER
只针对rocksdbStateBackend有效;

它是利用rocksdb 的compact 功能，在rocksdb进行compact 时，清除掉过期数据;

本策略，针对“本地状态空间”，且只用于EmbeddedRocksDbStateBackend。

完整的api案例

        StateTtlConfig.newBuilder(Time.milliseconds(1000))
                // 配置数据存活时间为4s（覆盖builder构造传入的1s）
                .setTtl(Time.milliseconds(4000))
                // 当插入、更新时候，该数据的ttl计时重置
                .updateTtlOnCreateAndWrite()
                // 当读取、更新时候，该数据的ttl计时重置
                .updateTtlOnReadAndWrite()
                // 不允许返回已经过期但是还没清理的数据
                .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
                // 允许返回已经过期但是还没清理的数据
                .setStateVisibility(StateTtlConfig.StateVisibility.ReturnExpiredIfNotCleanedUp)
                //  ttl的时间语义：设置为处理时间
                .setTtlTimeCharacteristic(StateTtlConfig.TtlTimeCharacteristic.ProcessingTime)
                //  ttl的时间语义：设置为处理时间
                .useProcessingTime()
                // 增量清理（每一条状态数据被访问，会驱动过期检查以及清除）
                .cleanupIncrementally(1000,true)
                // 全量快照清理策略（ck时候，保存到快照文件的值包含未过期的状态数据，并不会清理算子状态数据）
                .cleanupFullSnapshot()
                // compact 过程中清理过期的状态数据
                .cleanupInRocksdbCompactFilter(1000)
                // 禁用默认后台清理策略
                .disableCleanupInBackground()
                .build();