Flink实例（128）：状态管理(十七)Table API 和 SQL 模块状态管理(二)

王知无(import_bigdata)

已于 2022-07-05 22:37:24 修改

阅读量565

点赞数

分类专栏： Flink系统性学习专栏文章标签： flink sql 大数据

于 2021-03-07 11:52:35 首次发布

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/114481152

版权

Flink系统性学习专栏专栏收录该内容

256 篇文章 102 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

问题引入

同样以官网文档的案例为起点，这是一个持续查询的 GROUP BY 语句，它没有时间窗口的定义，理论上会无限地计算下去：

SELECT sessionId, COUNT(*) FROM clicks GROUP BY sessionId;

这就带来了一个问题：随着时间的不断推进，内存中积累的状态会越来越多，因为数据流是无穷无尽、持续流入的，Flink 并不知道如何丢弃旧的数据。在这种情况下，如果放任不管，那么迟早有一天作业的状态数达到了存储系统的容量极限，从而造成作业的崩溃。

针对这个问题，Flink 提出了空闲状态保留时间（Idle State Retention Time）的概念。通过为每个状态设置 Timer，如果这个状态中途被访问过，则重新设置 Timer；否则（如果状态一直未被访问，长期处于 Idle 状态）则在 Timer 到期时做状态清理。这样，就可以确保每个状态都能得到及时的清理。

通过调用 StreamQueryConfig 的 withIdleStateRetentionTime 方法，可以为这个 QueryConfig 对象设置最小和最大的清理周期。这样，Flink 可以保证最早和最晚的状态清理时间。

需要注意的是，旧版本 Flink 允许只指定一个参数，表示最早和最晚清理周期相同，

了解本专栏

超级会员免费看

王知无(import_bigdata)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink实例（128）：状态管理(十七)Table API 和 SQL 模块状态管理(二)

问题引入同样以官网文档的案例为起点，这是一个持续查询的 GROUP BY 语句，它没有时间窗口的定义，理论上会无限地计算下去：SELECT sessionId, COUNT(*) FROM clicks GROUP BY sessionId;这就带来了一个问题：随着时间的不断推进，内存中积累的状态会越来越多，因为数据流是无穷无尽、持续流入的，Flink 并不知道如何丢弃旧的数据。在这种情况下，如果放任不管，那么迟早有一天作业的状态数达到了存储系统的容量极限，从而造成作业的崩溃。针对这个问题
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

王知无(import_bigdata) 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。