一文搞懂Flink State如何实战。ValueState实现最大状态值计算

一、什么是state 

        流式计算场景,简单的说就说来一条数据就处理一条数据,对数据进行实时处理。这个时候就会自然而言的有一类需求,我的业务逻辑依赖之前我已经输入的数据。

        举一个场景就是Flink程序接收Kafka传输过来的数字,例如1到100的随机数。业务需求是输出收到的最大数字。比如按顺序收到的是0,10,2,3,4,5,应该输出的最大数是10。显然在这个处理过程中,需要一种机制来记录前面收到的信息。这种机制就是Flink里面的state,记录前面输入的数据。

二、Flink中的state

2.1 Flink State基本概念

Flink支持状态流处理的分布式计算系统。从分布情况来讲,Flink Jobs是由operator组成,每一个operator的执行在物理上都会被几个并行的operator实例。从Flink的设计理念出发,Flink并行Operator实例是一个可以集群上单独运行的实例。出于避免不必要数据传输的理念,所有的state数据都是保留在本地机器上。

在Flink中,State主要有两种基本类型:KeyedState 和 Operator State。因常用KeyedState,故只对keyedState进行详细介绍。

2.2 Flink keyedState基本编程模型

(这部分内容出自对官方文档的理解和学习,如有疏漏之处,请多多指教。)

Keyed State顾名思义就是被key过的状态,这里其实就是大数据编程中常见key的概念,也就是使用某个属性对全体数据进行分区,比如 reduce by key,Group By key,这里就是根据key对状态进行计算。

在Flink中,State有两种形式,一种是Flink自身提供的,另外一种是自己编码实现的。Flink自身提供的state,有很多自动机制,就是任务并行度增加时,state的状态也可以分发。自己编码的State,那些自动机制就需要自己编码实现。Flink官方文档优先推荐使用Managed State。下面这些State我自己的理解(https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/state.html#keyed-state):

  • ValueState: 记录单个值的

  • ListState: 列表值,同类型的可以记录一串串

  • ReducingState: 聚合相加的算子

  • FoldingState: 支持聚合函数

  • MapState: 存储k,v类型的

2.3 Flink  State编程套路

        Flink State编程,我的理解是1、声明一个状态变量 2、通过上下文获得一个状态变量 3、对状态变量进行取值,赋值的操作。下面以一个RichFlatMapFunction为例,来介绍State的使用。这里需要注意的是:首先是State的存取,需要使用RuntimeContext来读取,所以只能在RichFunction中使用。其次是State的存储方式是可以选择,再就是keyed State的值是和key绑定的。

下面就是一个带有state的RichFlatMapFunction的实现。(如果还不能跑起来,评论区见)

# 输入输出是(Long,Long)
class CountWindowAverage extends RichFlatMapFunction[(Long, Long), (Long, Long)] {

# 声明State  
private var sum: ValueState[(Long, Long)] = _

  override def flatMap(input: (Long, Long), out: Collector[(Long, Long)]): Unit = {

    // 读取State值
    val tmpCurrentSum = sum.value

    // State初始化
    val currentSum = if (tmpCurrentSum != null) {
      tmpCurrentSum
    } else {
      (0L, 0L)
    }

    // 获得当前和
    val newSum = (currentSum._1 + 1, currentSum._2 + input._2)

    // 更新Stata值
    sum.update(newSum)

    // 输出State,并将State进行清空
    if (newSum._1 >= 2) {
      out.collect((input._1, newSum._2 / newSum._1))
      sum.clear()
    }
  }

  override def open(parameters: Configuration): Unit = {
    sum = getRuntimeContext.getState(
      new ValueStateDescriptor[(Long, Long)]("average", createTypeInformation[(Long, Long)])
    )
  }
}


object ExampleCountWindowAverage extends App {
  val env = StreamExecutionEnvironment.getExecutionEnvironment

  env.fromCollection(List(
    (1L, 3L),
    (1L, 5L),
    (1L, 7L),
    (1L, 4L),
    (1L, 2L)
  )).keyBy(_._1)
    .flatMap(new CountWindowAverage())
    .print()
  // the printed output will be (1,4) and (1,5)

  env.execute("ExampleManagedState")
}

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
FlinkValueStateFlink状态编程中的一种状态类型。它用于在算子的处理函数中保存和访问一个单一的值。ValueState可以在算子的不同处理函数中共享和访问,以便跨时间和事件保持状态。 使用ValueState,可以在算子的处理函数中存储和更新一个值。这个值可以是任何类型,比如基本数据类型、自定义对象等。通过ValueState,算子可以在处理事件流时维护一些状态信息,从而实现一些有状态的计算逻辑。 要使用ValueState,首先需要在算子的运行时上下文中获取一个ValueStateDescriptor对象,该对象指定了ValueState的名称和类型。然后,可以通过调用ValueStateDescriptor的getState方法来获取具体的ValueState对象。通过这个ValueState对象,可以访问和更新存储在其中的值。 以下是一个示例代码片段,演示了如何在Flink中使用ValueState: ```java // 导入所需的类 import org.apache.flink.api.common.functions.RichFlatMapFunction; import org.apache.flink.api.common.state.ValueState; import org.apache.flink.api.common.state.ValueStateDescriptor; import org.apache.flink.util.Collector; public class MyFlatMapFunction extends RichFlatMapFunction<Integer, String> { // 声明一个ValueState变量 private transient ValueState<Integer> countState; @Override public void open(Configuration parameters) throws Exception { // 初始化ValueState ValueStateDescriptor<Integer> descriptor = new ValueStateDescriptor<>("countState", Integer.class); countState = getRuntimeContext().getState(descriptor); } @Override public void flatMap(Integer value, Collector<String> out) throws Exception { // 获取当前状态值 Integer currentCount = countState.value(); if (currentCount == null) { currentCount = 0; } // 更新状态值 currentCount += value; countState.update(currentCount); // 输出结果 out.collect("Current count: " + currentCount); } } ``` 在上述代码中,我们通过调用`getRuntimeContext().getState(descriptor)`获取了一个`ValueState<Integer>`对象,该对象用于存储和访问一个整数值。在`flatMap`函数中,我们首先通过`countState.value()`获取当前状态值,然后根据业务逻辑更新状态值,并通过`countState.update(currentCount)`方法更新状态。最后,我们使用`out.collect`方法将结果输出。 这只是一个简单的示例,实际中可以根据业务需求使用ValueState实现更复杂的状态计算逻辑。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大锤爱编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值