Flink状态后端RocksDBStateBackend的使用

最新推荐文章于 2024-06-03 10:05:33 发布

pezynd

最新推荐文章于 2024-06-03 10:05:33 发布

阅读量3.5k

点赞数 2

分类专栏：大数据杂谈文章标签： flink 大数据实时大数据 big data java

本文链接：https://blog.csdn.net/dzh284616172/article/details/122158931

版权

大数据杂谈专栏收录该内容

4 篇文章 1 订阅

订阅专栏

第1章简介

Flink状态和checkpoint的概念这里就不多赘述了，有兴趣的朋友可以看看我之前的文章，直接看一下官方对目前三种StateBackend的对比，在生产环境中我们经常选用的就是RocksDBStateBackend，他有磁盘存储和增量cp的优势，接下来我们就看看开发过程中如何使用RocksDBStateBackend。

名称	Working State	状态备份	快照
RocksDBStateBackend	本地磁盘（tmp dir）	分布式文件系统	全量 / 增量
支持大于内存大小的状态经验法则：比基于堆的后端慢10倍
FsStateBackend	JVM Heap	分布式文件系统	全量
快速，需要大的堆内存受限制于 GC
MemoryStateBackend	JVM Heap	JobManager JVM Heap	全量
适用于小状态（本地）的测试和实验

在新版本中有所改动，分为一下两种：

HashMapStateBackend：状态数据以 Java 对象的形式存储在堆中。 Key/value 形式的状态；
EmbeddedRocksDBStateBackend：将正在运行中的状态数据保存在RocksDB数据库中。

新旧版本使用方法大同小异，下面我们看看具体的使用。

第2章全局配置

我们可以在flink-conf.yaml 中进行全局的配置，如果job中有自己的设置，优先job中的设置。

# 用于存储 operator state 快照的 State Backend
state.backend: rocksdb

# 增量
state.backend.incremental: true

# 存储快照的目录
state.checkpoints.dir: hdfs://namenode:40010/flink/checkpoints

第3章作业中使用

如果要在程序中使用RocksDB作为StateBackend，需要引入如下依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-statebackend-rocksdb_2.11</artifactId>
    <version>1.14.2</version>
    <scope>provided</scope>
</dependency>

程序中再进行如下设置：

env.setStateBackend(new RocksDBStateBackend("hdfs://namenode:40010/flink/checkpoints", true));

checkpoint目录详细说明见：checkpoint目录结构

更多信息可查阅官方文档：Apache Flink State Backends

2021年就要接近尾声了，时间过的真快，有一段时间没有输出文章了，今天续上一篇，感恩2021 ！！

pezynd

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink状态后端RocksDBStateBackend的使用

介绍Flink中，RocksDBStateBackend的使用
复制链接

扫一扫

专栏目录

Flink状态后端RocksDBStateBackend的使用

第1章 简介

第2章 全局配置

第3章 作业中使用

第1章简介

第2章全局配置

第3章作业中使用