一、简介
Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是 Flink 引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。
实时计算如果任务失败导致中间状态丢失,将是一个非常可怕的事情。
比如实时计算每天的 pv,uv 等指标,任务掉线后中间状态也丢失了,那只能从凌晨数据重新计算。
如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算,妈妈再也不用担心我的任务掉线了。
下面介绍一下Flink如何实现状态计算和状态管理。
二、Flink中的状态管理
按照数据的划分和扩张方式,Flink中大致分为2类:
Keyed States:记录每个Key对应的状态值一个Task上可能包含多个Key不同Task上不会出现相同的Key ,常用的 MapState, ValueState
Operator States:记录每个Task对应的状态值数据类型
-
ListState:并发度在改变的时候,会将并发上的每个List都取出,然后把这些List合并到一个新的List,然后根据元素的个数在均匀分配给新的Task;
-
UnionListState