Flink-1.10中的StreamingFileSink相关特性

最新推荐文章于 2024-05-03 04:21:51 发布

王知无(import_bigdata)

最新推荐文章于 2024-05-03 04:21:51 发布

阅读量1.2k

点赞数 1

大数据技术与架构

点击右侧关注，大数据开发领域最强公众号！

暴走大数据

点击右侧关注，暴走大数据！

Flink流式计算的核心概念，就是将数据从Source输入流一个个传递给Operator进行链式处理，最后交给Sink输出流的过程。本篇文章主要讲解Sink端比较强大一个功能类StreamingFileSink,我们基于最新的Flink1.10.0版本进行讲解，之前版本可能使用BucketingSink,但是BucketingSink从Flink 1.9开始已经被废弃，并会在后续的版本中删除，这里只讲解StreamingFileSink相关特性。

1. 写出文件的状态

看这个图片应该能明白，文件会分在不同的桶中，bucket中存在不同状态的文件：

In-progress ：当前文件正在写入中
Pending ：当处于 In-progress 状态的文件关闭（closed）了，就变为 Pending 状态
Finished ：在成功的 Checkpoint 后，Pending 状态将变为 Finished 状态

2. 简单的字符串写出示例

DataStreamSource<String> lines = FlinkUtil.createSocketStream("localhost", 8888);


        StreamExecutionEnvironment env = FlinkUtil.getEnv();
        // 设置checkpoint
        env.enableCheckpointing(TimeUnit.SECONDS.toMillis(10));


        OutputFileConfig config = OutputFileConfig
                .builder()
                .withPartPrefix("prefix")
                .withPartSuffix(".txt")
                .build();




        final StreamingFileSink<String> sink = StreamingFileSink
                .forRowFormat(new Path(outputPath), new SimpleStringEncoder<String>("UTF-8"))
                /**
                 * 设置桶分配政策
                 * DateTimeBucketAssigner--默认的桶分配政策，默认基于时间的分配器，每小时产生一个桶，格式如下yyyy-MM-dd--HH
                 * BasePathBucketAssigner ：将所有部分文件（part file）存储在基本路径中的分配器（单个全局桶）
                 */
                .withBucketAssigner(new DateTimeBucketAssigner<>())
                /**
                 * 有三种滚动政策
                 *  CheckpointRollingPolicy
                 *  DefaultRollingPolicy
                 *  OnCheckpointRollingPolicy
                 */
                .withRollingPolicy(
                        /**
                         * 滚动策略决定了写出文件的状态变化过程
                         * 1. In-progress ：当前文件正在写入中
                         * 2. Pending ：当处于 In-progress 状态的文件关闭（closed）了，就变为 Pending 状态
                         * 3. Finished ：在成功的 Checkpoint 后，Pending 状态将变为 Finished 状态
                         *
                         * 观察到的现象
                         * 1.会根据本地时间和时区，先创建桶目录
                         * 2.文件名称规则：part-<subtaskIndex>-<partFileIndex>
                         * 3.在macos中默认不显示隐藏文件，需要显示隐藏文件才能看到处于In-progress和Pending状态的文件，因为文件是按照.开头命名的
                         *
                         */
                        DefaultRollingPolicy.builder()
                                .withRolloverInterval(TimeUnit.SECONDS.toMillis(2)) //设置滚动间隔
                                .withInactivityInterval(TimeUnit.SECONDS.toMillis(1)) //设置不活动时间间隔
                                .withMaxPartSize(1024 * 1024 * 1024) // 最大零件尺寸
                                .build())
                .withOutputFileConfig(config)
                .build();


        lines.addSink(sink).setParallelism(1);

3. 写出文件的滚动策略

数据写入文件时，查看源码可以知道
滚动策略是这么判断的：
没有处于inProgressPart状态的文件或者 DefaultRollingPolicy.shouldRollOnEvent成立，即打开的文件大小超过了滚动器中设置的大小
滚动文件时，首先关闭当前处于progress的part文件，然后创建一个新的 assembleNewPartPath，并且partCounter++（计数器）

StreamingFileSink继承自RichSinkFunction，显然之后执行一次，
该方法中注册了一个定时器，定时器的执行时间为currentProcessingTime + bucketCheckInterval
其中bucketCheckInterval为调用StreamingFileSink.forRowFormat()时，默认创建的，其默认值为60000，也就是一分钟

onProcessingTime方法继承自ProcessingTimeCallback，此方法使用调度触发器的时间戳调用。
该方法中设定了60秒的定时器，定时每60秒执行一次该方法
该方法中会调用buckets.onProcessingTime(currentTime)
里面判断是否需要关闭part文件，注意是关闭而不是滚动
判断条件为：part文件不为空并且 DefaultRollingPolicy.shouldRollOnProcessingTime条件成立。
即part文件存在，并且（当前时间-part的创建时间 >= 滚动时间或者当前时间-part的最后修改时间 >= 不活跃时间）

snapshotState和initializeState方法继承自CheckpointedFunction，用来构建快照或者恢复历史状态。
其中snapshotState方法会调用buckets.snapshotState()方法，对桶的状态进行快照处理。
将所有处理活跃状态的桶全部进行快照处理，做快照时会检查是否需要滚动，滚动条件为：
part文件不为空并且 DefaultRollingPolicy.shouldRollOnCheckpoint成立，即文件大小超过设定。
满足该条件时，就会关闭partFile

notifyCheckpointComplete方法继承自CheckpointListener，用来通知检查点完成
该方法中会调用onSuccessfulCompletionOfCheckpoint方法
会将已经关闭的（其实是处于Pending状态的文件）part文件重命名。

欢迎点赞+收藏+转发朋友圈素质三连

文章不错？点个【在看】吧！ ????

王知无(import_bigdata)

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flink-1.10中的StreamingFileSink相关特性

大数据技术与架构点击右侧关注，大数据开发领域最强公众号！暴走大数据点击右侧关注，暴走大数据！Flink流式计算的核心概念，就是将数据从Source输入流一个个传递给Operator进行链...
复制链接

扫一扫