一、简介
Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。
实时计算如果任务失败导致中间状态丢失,将是一个非常可怕的事情。
比如实时计算每天的 pv,uv 等指标,任务掉线后中间状态也丢失了,那只能从凌晨数据重新计算。
如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算,妈妈再也不用担心我的任务掉线了。
下面介绍一下Flink如何实现状态计算和状态管理。
二、Flink中的状态管理
按照数据的划分和扩张方式,Flink中大致分为2类:
Keyed States:记录每个Key对应的状态值一个Task上可能包含多个Key不同Task上不会出现相同的Key ,常用的 MapState, ValueState
Operator States:记录每个Task对应的状态值数据类型
-
ListState:并发度在改变的时候,会将并发上的每个List都取出,然后把这些List合并到一个新的List,然后根据元素的个数在均匀分配给新的Task;
-
UnionListState
本文深入探讨Apache Flink的状态管理,包括Flink中的状态类型、存储格式、存在的形式以及使用。重点介绍了State的过期时间TTL,解释了如何设置和使用State TTL,以及不同的清理策略,如全状态快照清理和增量清理。此外,文章还提到了Table API和SQL模块的状态管理,以及Flink 1.9.0引入的State Processor API。
订阅专栏 解锁全文
2460

被折叠的 条评论
为什么被折叠?



