flink-2.概念-有状态的流式处理

最新推荐文章于 2024-02-27 23:56:08 发布

zdkdchao

最新推荐文章于 2024-02-27 23:56:08 发布

阅读量496

点赞数

分类专栏： flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34224565/article/details/109384580

版权

flink 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

什么是

流式处理的传统状态处理思路

在这里插入图片描述

传统批处理方法是持续收取数据，以时间作为划分多个批次的依据，再周期性地执行批次运算。但假设需要计算每小时出现事件转换的次数，如果事件转换跨越了所定义的时间划分，跨越了批次的时间边界，传统批处理会将中介运算结果带到下一个批次进行计算；除此之外，当出现接收到的事件顺序颠倒情况下，传统批处理仍会将中介状态带到下一批次的运算结果中，这种处理方式也不尽如人意。
意思就是，批处理无法做到实时，比如3点-4点，批处理无法保证系统时间3点-4点时接受的数据就是想要的

有状态的计算要有2个要素：

从一个queue中累积状态、维护状态
时间，根据时间判断是否接受到所有需要的数据

问题

有状态的分布式流计算
比如根据key分组求count，count就是状态，根据key分组就是分布式。
要有一个机制去维护状态，并且可以容错。

1. 状态容错

如何保证exactly once的容错

将数据为key，state的快照为value，建立一个映射，如果哪条数据出错了，直接回退到之前的快照

如何在分布式场景下产生一个全局一致（global consistent snapshot）的快照，并且不中断运算

产生gcs的方法有2：

一条数据经过所有分布式节点上的算子的计算后，记录产生的状态，这样需要中断运行
首先引入checkpoint的概念，所有的节点在经过一个checkpoint后，会将当前状态传输到一个共享的dfs中

2. 状态维护

共享变量

本地JVM
远程的，比如rocksDB，

3. Event Time处理

定义一个时间窗口，并不是按系统收到的时间，而是event产生的时间，这就需要event中带有时间信息，并且在处理时要读取这个时间信息。
watermark 用来保证指定窗口的数据是否已经全部收集完。接受一个3-4的时间窗口的数据，会设置一个延迟delay，比如5分钟，到4:05的时候才把所有3-4的event进行处理。

4. 状态保存与迁移

比如项目升级、修改bug、升级flink版本，如何把之前的状态迁移到新版本中
重新定义分区

保存点：手动设置的checkpoint

比如升级花了3小时，期间kafka仍然一直采集数据，等系统升级完，利用eventTime来进行运行窗口，此时一定不能用processTime，否则会放到一个窗口中。

总结

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zdkdchao CSDN认证博客专家 CSDN认证企业博客

码龄9年

328: 原创

1万+: 周排名

9342: 总排名

38万+: 访问

: 等级

3654: 积分

9560: 粉丝

191: 获赞

62: 评论

793: 收藏

私信

关注

热门文章

分类专栏

最新评论

linux-修改主机名
zdkdchao: 就是ssh工具断开再连啊
linux-修改主机名
乱写都会有人看啊: 谢谢老师，๑•́₃•̀๑能不能问一下您要怎么用ssh工具重新连接啊，我刚弄个新机子也可以用您这个办法吗，我只知道ssh免密的设置
linux-修改主机名
zdkdchao: 就是用ssh工具重新连一下，主机名就变了，实际上已经变了，只不过ssh工具没同步
linux-修改主机名
乱写都会有人看啊: 老师，请问重新连接一下是什么意思，是重启网络服务器吗
shell-sed
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。