Apache Flink Stream API之State & Fault Tolerance（章节四）

最新推荐文章于 2023-11-20 21:01:42 发布

麦田里的守望者·

最新推荐文章于 2023-11-20 21:01:42 发布

阅读量631

点赞数 1

分类专栏： Flink实时计算文章标签： Apache Flink state checkpoint savepoint

本文链接：https://blog.csdn.net/weixin_38231448/article/details/89607178

版权

本文深入探讨Apache Flink的State Backends、Checkpointing和State分类，重点介绍了MemoryStateBackend、FsStateBackend和RocksDBStateBackend的特性。Flink的检查点机制用于保证流处理的容错，而State TTL功能则允许自动清理过期状态。文章还讲解了Managed Keyed State、Managed Operator State和Broadcast State的使用，并强调了RocksDBStateBackend在生产环境中的优势。

摘要由CSDN通过智能技术生成

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy

State & Fault Tolerance

针对于流处理的有状态function和operators可以存储流计算过程中的每个Event的计算状态。状态计算是构建精确操作不会或缺的板块。Flink需要获知计算节点的状态，从而使用checkpoint和savepoint机制实现数据的故障恢复和容错。其中Queryable State允许外部在Flink运行过程中查询数据状态，当用户使用State操作flink提供了state backend机制用于存储状态信息，其中计算状态可以存储在Java的堆内和堆外，这取决于采取的statebackend机制。配置Statebackend不会影响应用的处理逻辑。

State Backends

Flink提供了不同的Sate backend，用于指定状态的存储方式和位置。根据您的State Backend，State可以位于Java的堆上或堆外。Flink管理应用程序的Sate，这意味着Flink处理内存管理（如果需要可能会溢出到磁盘）以允许应用程序保持非常大的状态。默认情况下，配置文件flink-conf.yaml确定所有Flink作业的状态后端。但是，可以基于每个作业覆盖默认状态后端，如下所示。

var env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStateBackend(...);

（1）MemoryStateBackend：state数据保存在java堆内存中，执行checkpoint的时候，会把state的快照数据保存到jobmanager的内存中，基于内存的state backend在生产环境下不建议使用。

（2）FsStateBackend：state数据保存在taskmanager的内存中，执行checkpoint的时候，会把state的快照数据保存到配置的文件系统中，可以使用hdfs等分布式文件系统。

（3）RocksDBStateBackend：RocksDB跟上面的都略有不同，它会在本地文件系统中维护状态，state会直接写入本地rocksdb中。同时它需要配置一个远端的filesystem uri（一般是HDFS），在做checkpoint的时候，会把本地的数据直接复制到filesystem中。fail over的时候从filesystem中恢复到本地。RocksDB克服了state受内存限制的缺点，同时又能够持久化到远端文件系统中，比较适合在生产中使用。

如果不做任何配置的情况下，系统使用的是MemoryStateBackend Sate

配置RocksDBStateBackend状态存储

[root@CentOS flink-1.8.0]# vi conf/flink-conf.yaml

#==============================================================================
# Fault tolerance and checkpointing
#==============================================================================

# The backend that will be used to store operator state checkpoints if
# checkpointing is enabled.
#
# Supported backends are 'jobmanager', 'filesystem', 'rocksdb', or the
# <class-name-of-factory>.
#
state.backend: rocksdb
# Directory for checkpoints filesystem, when using any of the default bundled
# state backends.
#
state.checkpoints.dir: hdfs:///flink-checkpoints

# Default target directory for savepoints, optional.
#
state.savepoints.dir: hdfs:///flink-savepoints

# Flag to enable/disable incremental checkpoints for backends that
# support incremental checkpoints (like the RocksDB state backend).
#
# state.backend.incremental: false

测试savepoint

[root@CentOS flink-1.8.0]# ./bin/flink list -m CentOS:8081
------------------ Running/Restarting Jobs -------------------
27.04.2019 13:49:01 : 788af53fa5e8cc6d1d9e6381496727a9 : state tests (RUNNING)
--------------------------------------------------------------
[root@CentOS flink-1.8.0]# ./bin/flink cancel 
									-m CentOS:8081 
									-s 
									788af53fa5e8cc6d1d9e6381496727a9

-s 后面可以指定savepoint地址，如果没有给定则使用默认配置地址。

Checkpointing

Flink中的每个function和operator都可以是有状态的。为了使状态容错，Flink需要检查状态。检查点允许Flink恢复流中的状态和位置，从而为应用程序提供与无故障执行相同的语义。 Flink的检查点机制与流和状态的持久存储交互。一般来说，它需要：

持久化的数据源，可以在一定时间内重放记录。这种源的示例是持久消息队列（例如，Apache Kafka，RabbitMQ，Amazon Kinesis，Google PubSub）或文件系统（例如，HDFS，S3，GFS，NFS，Ceph，…）。
状态的持久存储，通常是分布式文件系统（例如，HDFS，S3，GFS，NFS，Ceph，…）

默认情况下，检查点并未开启。要启用检查点，请在StreamExecutionEnvironment上调用enableCheckpointing（n），其中n是检查点间隔（以毫秒为

最低0.47元/天解锁文章

麦田里的守望者·

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Flink Stream API之State & Fault Tolerance（章节四）

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wyState & Fault Tolerance针对于流处理的有状态function和operators可以存储流计算过程中的每个Event的计算状态。状态计算是构建精确操作不会或缺的板块。Flink需要获知计算节点的状态，从而使用checkpoint和savepoint机制...
复制链接

扫一扫

专栏目录