Flink处理函数实战之一：深入了解ProcessFunction的状态(Flink-1

2401_83916355

于 2024-04-23 12:24:08 发布

阅读量574

点赞数 15

分类专栏：程序员文章标签： flink 数据库大数据

本文链接：https://blog.csdn.net/2401_83916355/article/details/138120176

版权

程序员专栏收录该内容

345 篇文章 0 订阅

订阅专栏

每个key对应的状态是如何操作的？

Flink的"状态"

先去回顾Flink"状态"的知识点：

官方文档说就两种状态：keyed state和operator state：

在这里插入图片描述

如上图，keyed stream的元素是具有key的特征，与ProcessFunction的操作状态时要求匹配，其他steam的元素由于没有key的特征，所以也就没有状态一说了；
另一种状态是Operator State，如下图，这是和多并行度计算时的算子实例绑定的，例如当前算子消费kafka的某个分区的最新offset，而ProcessFunction是用来处理stream元素的，不会涉及到Operator State：

在这里插入图片描述

官方demo

为了学习ProcessFunction就去看官方demo，地址是：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/stream/operators/process_function.html ，简单说说这个demo的功能：

数据源在不间断的产生单词，每个单词对应一个Tuple2<String,String>的实例；
数据源被keyBy方法转成KeyedStream，key是Tuple2实例的f0字段；
一个KeyedProcessFunction的子类CountWithTimeoutFunction，被用来处理KeyedStream的每个元素，处理的逻辑：为每个key维护一个状态，状态的内容是这个key的出现次数和最后一次出现时间；
如果那个key连续一分钟没有出现，KeyedProcessFunction就向下游发送这个元素；

以上就是官方demo的功能，本来是想通过demo来加深认识，结果看完不但没有明白，反而更晕了，下图是我对demo代码的疑惑：

在这里插入图片描述

从上图可见我的疑惑，这里再复述一下：

5. 入参value是Tuple2类型，假设其f0字段等于aaa，那么processElement方法的作用，就是取出aaa的状态，更新后保存；

6. 从代码上看，state.value()返回了aaa的状态，这个value方法并没有将aaa作为入参，那怎么做到返回aaa的状态呢？如果下一个入参value的f0字段等于bbb了，这个state.value()能返回bbb的状态吗？

7. 对更新状态的代码state.update(current)也是同样的疑惑；

8. 然后又产生了新的疑惑：成员变量state难道是一直在变？每执行一次processElement，都会变成该key对应的state实例？

先反思为何会有上述疑惑

上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value()方法没有用key做入参就不习惯了
要消除这种不适应，要做的第一件事就是提醒自己：processElement是在框架内运行的，很多数据在之前已经由框架准备好了；
接下来要做的，就是把框架准备数据的逻辑看一遍，除了弄明白自己的问题，由于ProcessFunction属于最低阶抽象(如下图的最下方位置)，看懂了这些，其实也是在了解DataStream/DataSet API的设计思路：

在这里插入图片描述

跟踪源码

如下图，让我们从一个断点的堆栈开始吧，这是在执行上面demo中的processElement方法之前的一个断点，可见根源是个线程的run方法，也就是KeyedProcessFunction对应的算子执行任务的线程：

在这里插入图片描述

上面的堆栈不必每一层都细看，只关注重要的部分，下图这段很重要：StreamTask.run方法中，有个无限循环（猜测是每次执行processInput方法都处理KeyedStream的一个元素）：

在这里插入图片描述

如下图，StreamOneInputProcessor.processInput方法取出KeyedStream的一个元素，调用processElement方法，并将此元素作为入参，再结合上一幅图可以看出：在编写KeyedProcessFunction子类的时候，KeyedStream的每个元素都会作为入参，在调用你重写的processElement方法时传进去；这一点，在做ProcessFunction和KeyedProcessFunction开发时都是要格外注意的：

在这里插入图片描述

接下来到了最关键的地方了，下图红框中的streamOperator.setKeyContextElement1(record)会解答我前面的疑惑，一定要进去看个清楚，(后面的黄线上的代码，您应该猜到了，里面其实就是调用demo中的processElement方法)

在这里插入图片描述

下图中，AbstractStreamOperator.setKeyContextElement给出了答案：对于KeyedStream的每个元素，都会在这里算出key，再调用setCurrentKey保存这个key：

在这里插入图片描述

展开setCurrentKey，如下图，发现key的保存和当前状态的存储策略(StateBackend)有关，我这里是默认策略HeapKeyedStateBackend：

在这里插入图片描述

最终，根据当前元素得到的key会在StateBackend的keyContext对象中找地方保存，StateBackend的具体实现和Flink设置有关，我这里是保存到了InternalKeyContextImpl实例的currentKey变量中：

在这里插入图片描述

代码读到这里，对我前面的疑惑，您应该能推测出答案了：state.value()里面会通过StateBackend的keyContext取出刚才保存的key，接下来就能像HashMap那样根据key查出该key的状态了，接下来是愉快的印证我们推测的过程；
在state.value()代码位置打断点一次看个明白，如下图，果然，state里面有StateBackend的keyContext对象的引用，访问刚才保存的key就不成问题了：

在这里插入图片描述

展开state.value()方法如下，简单明了，直接拿keyContext保存的key作为入参去取对应的状态：

在这里插入图片描述

再展开上面的get方法，可见最终是从stateMap中取得的，而这个stateMap的具体实现是CopyOnWriteStateMap类型的实例：

在这里插入图片描述

代码读到这里，只剩最后一处需要印证了：更新状态的state.update(current)方法，应该也是以StateBackend的keyContext中的key作为自己的key，再将入参的current作为value，更新到stateMap中，来吧，一起印证这个推测；
展开方法，看到的是stateTable.put方法（前面刚看过stateTable的get方法，稳了）：

在这里插入图片描述

stateTable.put方法里面和前面的get方法一样，直接拿keyContext保存的key作为自己的key：
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Java）

最后

权威指南-第一本Docker书

引领完成Docker的安装、部署、管理和扩展，让其经历从测试到生产的整个开发生命周期，深入了解Docker适用于什么场景。并且这本Docker的学习权威指南介绍了其组件的基础知识，然后用Docker构建容器和服务来完成各种任务：利用Docker为新项目建立测试环境，演示如何使用持续集成的工作流集成Docker，如何构建应用程序服务和平台，如何使用Docker的API，如何扩展Docker。

总共包含了：简介、安装Docker、Docker入门、使用Docker镜像和仓库、在测试中使用Docker、使用Docker构建服务、使用Fig编配Docke、使用Docker API、获得帮助和对Docker进行改进等9个章节的知识。

关于阿里内部都在强烈推荐使用的“K8S+Docker学习指南”—《深入浅出Kubernetes：理论+实战》、《权威指南-第一本Docker书》，看完之后两个字形容，爱了爱了！
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！
理论+实战》、《权威指南-第一本Docker书》，看完之后两个字形容，爱了爱了！
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

2401_83916355

关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Flink处理函数实战之一：深入了解ProcessFunction的状态(Flink-1

引领完成Docker的安装、部署、管理和扩展，让其经历从测试到生产的整个开发生命周期，深入了解Docker适用于什么场景。并且这本Docker的学习权威指南介绍了其组件的基础知识，然后用Docker构建容器和服务来完成各种任务：利用Docker为新项目建立测试环境，演示如何使用持续集成的工作流集成Docker，如何构建应用程序服务和平台，如何使用Docker的API，如何扩展Docker。
复制链接

扫一扫