flink的大状态复用

goTsHgo

于 2024-09-11 12:15:48 发布

阅读量1k

点赞数 17

分类专栏：大数据 Flink 分布式文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/goTsHgo/article/details/142136400

版权

分布式同时被 3 个专栏收录

31 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

在 Apache Flink 中，实现大状态复用主要涉及在不同任务、不同生命周期阶段，甚至不同作业之间共享或重用状态数据。复用大状态可以减少重新加载和重新计算的开销，从而提升作业的效率和业务连续性。下面是几种在 Flink 中复用大状态的常见方法：

1. Savepoints（保存点）

Savepoints 是 Flink 中用于状态持久化的一种机制，可以在作业停止或更新后恢复状态，从而实现大状态的复用。

复用方式：通过 Savepoints，作业可以保存当时的状态，当作业需要重启（例如版本更新、代码更改或集群迁移）时，可以从之前的 Savepoint 恢复，避免重新计算或加载状态。
优点：
- 作业重启或升级时，可以复用先前保存的状态。
- 可以与不同的作业配置结合使用，保证状态不丢失。
步骤：
1. 创建 Savepoint：当你希望停止一个任务并保存其状态时，可以手动或自动创建 Savepoint。
```
flink savepoint <job_id> <savepoint_path>
```
2. 从 Savepoint 恢复作业：当你需要重启作业时，可以从保存的 Savepoint 恢复状态，而不是从头开始。
```
flink run -s <savepoint_path> <job_jar>
```
使用场景：作业升级、代码变更、作业迁移或需要在不同作业之间复用状态时。

2. Externalized Checkpoints（外部化检查点）

Flink 支持将检查点（Checkpoints）存储在外部持久化存储中（如 HDFS、S3），从而使得这些状态可以跨任务生命周期复用。

复用方式：外部化的检查点在作业取消或失败后不会被删除，因此可以用作恢复点。在作业重启时，可以从外部化检查点加载状态，复用之前的状态。
优点：
- 即使作业失败或取消，检查点数据也会保留。
- 允许从外部化检查点恢复任务，减少重新加载状态的时间。
步骤：
1. 启用外部化检查点：
```
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
```
2. 从外部化检查点恢复：与 Savepoint 类似，在作业重启时可以选择从外部化的检查点中恢复。
使用场景：需要在作业重启或容灾恢复时复用状态，并避免状态丢失。

3. RocksDB 后端和外部存储

RocksDB 是 Flink 常用的状态后端之一，支持将大状态存储在磁盘上。当状态数据非常庞大时，RocksDB 可以将状态持久化在磁盘，甚至与外部存储系统集成（如 HDFS、S3），从而在不同作业之间共享和复用状态。

复用方式：通过 RocksDB 后端，状态持久化在磁盘上，复用可以通过直接使用相同的状态存储路径，并允许多个任务共享这一状态。
优点：
- 可以有效处理超大规模状态，将状态持久化到磁盘或外部存储。
- 状态可复用，且多个任务可以共享同一个 RocksDB 实例中的状态数据。
使用步骤：
1. 启用 RocksDB 作为状态后端：
```
env.setStateBackend(new RocksDBStateBackend("hdfs:///flink/checkpoints"));
```
2. 配置外部存储路径：确保 RocksDB 状态后端持久化到外部存储位置（如 HDFS 或 S3）。
使用场景：超大状态存储、分布式状态共享、状态持久化等场景。

4. 全局状态共享（External State Sharing）

通过使用外部数据库、分布式文件系统等外部存储，可以在多个作业间共享同一状态，实现状态复用。

复用方式：将状态存储在外部的持久化存储系统中，如 Redis、Cassandra、HBase 等，使多个 Flink 作业可以访问同一个状态数据。
优点：
- 可以在多个作业间共享和复用状态。
- 适合需要频繁访问和更新同一套状态的场景。
实现方式：
1. 使用外部存储系统：在 Flink 中，可以通过连接器（Connectors）访问外部存储，如使用 Redis、Cassandra 或其他外部数据库。
2. 在多个作业中共享同一个数据库或存储路径。
使用场景：多个作业之间需要共享某些状态数据，或不同作业间需要访问相同的状态存储。

5. 自定义状态管理服务

有时可以通过创建一个独立的状态管理服务（如缓存层或状态存储服务）来共享和复用状态。不同的 Flink 作业通过 API 调用或数据流访问这个服务，实现状态复用。

复用方式：状态管理服务独立于 Flink 作业，通过 REST API 或者消息队列等机制与 Flink 进行通信，提供状态数据的读写服务。
优点：
- 实现了状态逻辑的完全分离和复用。
- 适合复杂的状态场景，能够在不同的作业和系统之间复用状态。
实现步骤：
1. 设计并开发一个独立的状态管理服务，支持对外的状态查询和更新。
2. Flink 作业通过 API 调用或流式通信机制与状态服务交互。
使用场景：需要跨作业甚至跨系统复用复杂状态的场景。

6. 缓存机制

对于某些状态查询频繁但更新较少的场景，可以使用缓存机制将状态数据保存在内存中，从而避免多次重复计算或重新加载。

复用方式：通过在作业中引入本地缓存，将常用的状态数据保存在内存中，从而减少重新计算或从外部存储获取状态的开销。
优点：
- 减少对外部状态存储的依赖，提升状态访问速度。
- 缓存可以灵活管理更新和过期策略。
实现方式：可以使用 Java 内置的缓存库或其他第三方缓存工具（如 Guava Cache）。
使用场景：适用于查询频繁且状态数据较少变化的场景。

总结

复用大状态的主要方式包括：

Savepoints 和 外部化检查点：适合作业重启、升级或迁移时的状态复用。
RocksDB 后端与外部存储：适合大状态持久化和复用，通过外部存储系统实现跨作业的状态共享。
全局状态共享：通过外部数据库或存储系统在多个作业之间共享状态。
自定义状态管理服务：用于复杂场景的跨作业或系统的状态复用。
缓存机制：对于高频查询的状态，可以引入缓存以减少重复加载的开销。

选择合适的状态复用策略取决于业务场景、状态的大小和复杂性，以及状态访问的频率和一致性要求。

关注

17
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

goTsHgo CSDN认证博客专家 CSDN认证企业博客

码龄3年

124: 原创

9786: 周排名

1万+: 总排名

14万+: 访问

: 等级

2394: 积分

1509: 粉丝

1108: 获赞

35: 评论

1122: 收藏

私信

关注

热门文章

分类专栏

Hive 4篇
大数据 25篇
数据库 3篇
分布式 31篇
Clickhouse 4篇
CPU架构 1篇
Flink 14篇
数据湖 1篇
Hadoop 3篇
MySQL 1篇
Java 13篇
Maven 6篇
运维 15篇
Java basic 25篇
CentOS7 2篇
Linux 3篇
云原生 2篇
计算机网络 14篇
JVM 1篇
JUC
spark 2篇
Scala 5篇
Kafka 1篇

最新评论

Java中 static 关键字相关的用法
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
DNS负载均衡的底层实现原理
小王毕业啦: 博主的文章内容真的是非常有价值，让我对DNS负载均衡的底层实现原理有了全新的认识。文章中的细节描述非常到位，让我感受到了博主的深厚功底和专业知识。期待博主未来能够持续分享更多这样优质的文章，让我们一起学习进步。非常感谢博主的分享和支持！
SQL Server中设置端口号
征途黯然.: This article about SQLServer中设置端口号 is very insightful and profound! The understanding and explanation are impressive. I have gained a lot of knowledge from it. Thank you for sharing!
Hive执行报错：FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask
johnny00000: 你好，你的这个问题解决了没，我改了配置也是不行
Scala学习之（七）集合
书香恋仁心: 尚硅谷给你抄的地库都不剩了

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。