FLINK 1.12.2 流式写入HDFS（hive）的几种方式

最新推荐文章于 2024-01-18 02:11:10 发布

VIP文章 arwenlin

最新推荐文章于 2024-01-18 02:11:10 发布

阅读量1.4w

点赞数 10

分类专栏： FLINK 1.12.2 学习实践记录文章标签： flink hadoop java hive

本文链接：https://blog.csdn.net/arwenlin/article/details/117121384

版权

Flink 1.12.2 写入hdfs有3种方式，依照api出现的先后依次介绍，重点介绍Flink SQL on Hive的方式。

1 streaming file sink

1.7版Flink开始支持通过StreamingFileSink实现写入hdfs，支持exactly-once语义，基于checkpoint实现两阶段提交（即需要设置checkpoint）。一般应用于实时数仓、topic拆分、基于小时的分析处理等。

StreamingFileSink提供了2个写入API：

Flink 提供了两个分桶策略：

StreamingFileSink的滚动策略有2种，滚动策略实际上就是flink何时写文件的方式：

（默认）滚动策略生成器DefaultRollingPolicy：当超过最大桶大小（默认为 128 MB），或超过了滚动周期（默认为 60秒），或未写入数据处于不活跃状态超时（默认为 60 秒）的时候，滚动文件；
checkpoint滚动策略生成器OnCheckpointRollingPolicy：当 checkpoint 的时候，滚动文件。

需要注意：

关注