Flink state、checkPoint

状态(State)

  • 我们前面写的word count的例子,没有包含状态管理,如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算,从容错和消息处理的语义上,flink引入了state和checkpoint.
  • 首先取分两个概念

      1)state一般指一个具体的task/operator的状态【state数据默认保存在java的堆内存中】

      2)而checkpoint【可以理解为checkpoint是把state数据持久化存储了】,则表示了一个flink job 在特定的时刻的一份全局状态快照,即包含了所有task/operator的状态,task是Flink中执行的基本单位,operator指算子(transfomation)

  • State可以被记录,在失败的情况下数据还可以恢复
  • Flink中有两种基本类型的State: keyed State Operator State
  • State 两种形式存在:原始状态(raw state) 托管状态(managed state)
  • 托管状态是由flink 框架管理的状态
  • 而原始状态,由用户自行管理状态具体的数据结构,框架在做checkpoint的时候,使用byte[]来读写状态内容,对其内部结构一无所知
  • 通常在DataStream上的状态推荐使用托管状态,当实现一个用户自定义的operator时,会使用到原始状态

State-Keyed State

  • 顾名思义,就是基于KeyedStream上的状态。这个状态是跟特定得Key绑定的,对KeySream流上的每一个key,都对应一个state
  • 保存state的数据结构 

   1)ValueState<T> 即类型为T的单值状态,这个状态与对应的key绑定,是最简单的状态了,它可以通过update更新状态值,可以通过value()方法获取状态值

   2)ListState<T>:即key上的状态值为一个列表,可以通过add方法往列表中添加值,通过get()方法遍历值

   3)ReducingState<T>:这种状态 通过用户传入的reducefunction,每次调用add方法添加值得时候,会调用reducefunction,最后合并到一个单一的状态值

   4)MapState<UK,UV> 即状态值为一个Map,用户通过Put或putAll方法添加元素

  • 需要注意的是,以上所述的state对象,仅仅用于与状态进行交互(更新、删除、清空等),而真正的状态值,有可能存在内存,磁盘或者其他分布式存储系统中,相当于我们只是持有了这个状态的句柄

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值