扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦
简介
Flink官网的自我介绍:Apache Flink® — Stateful Computations over Data Streams,可以看出状态计算是Flink引以为豪的杀手锏。那什么是带状态的计算呢?简单说计算任务的结果不仅仅依赖于输入,还依赖于它的当前状态。实时计算如果任务失败导致中间状态丢失,将是一个非常可怕的事情。比如实时计算每天的pv,uv等指标,任务掉线后中间状态也丢失了,那只能从凌晨数据重新计算。如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算,妈妈再也不用担心我的任务掉线了。下面介绍一下Flink如何实现状态计算和状态管理。
Flink中的状态管理
按照数据的划分和扩张方式,Flink中大致分为2类: