Flink 使用 BucketingSink 分桶写入HSDFS 方便Hive查询

最新推荐文章于 2022-06-14 18:35:21 发布

疯琴

最新推荐文章于 2022-06-14 18:35:21 发布

阅读量2k

点赞数 1

分类专栏： flink/spark java/scala 大数据

本文链接：https://blog.csdn.net/qq_35753140/article/details/96857181

版权

java/scala 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

大数据

5 篇文章 0 订阅

订阅专栏

flink/spark

4 篇文章 1 订阅

订阅专栏

需求：

用BucketingSink进行分桶sink，按照event time每小时一个分桶，即一个文件夹，方便Hive查询

文件分桶说明

在每个分桶文件夹内有若干文件，文件名为_part-8-0.in-progress或_part-81-0.pending或part-8-0，分别代表处于in-progress、pending和finish状态。
文件关闭后就由in-progress转变到pending，关闭的条件是多久没有往文件中写入数据了，通过setInactiveBucketThreshold()设置，默认1分钟，检查这个条件的周期间隔由setInactiveBucketCheckInterval设置。
part-8-0中横线分隔的第二个数字由并发度决定，100个并发度的话这个数字就从0到99
part-8-0中横线分隔的第三个数字代表这个并发算子（slot，就是中间的8）写个多少个文件了，切分新文件的条件有两个：
- 写入文件尺寸达到一定的量，由setBatchSize(1024 * 1024 * 500); // this is 500M设置
- 文件写入了一定时间，由setBatchRolloverInterval(20 * 60 * 1000); // this is 20 mins设置
文件由pending转变为finish由checkpoint触发

checkpoint不设置state的保存位置的话默认在JobManager的内存里保存，很快就撑爆，所以要通过配置文件改到hdfs上，新的checkpoint文件生成后会自动删除旧的。

配置 checkpoint

flink-conf

state.backend: filesystem
state.checkpoints.dir: hdfs://hdfs-host/tmp/flink-checkpoints

设置 BucketingSink 的代码

    DataStream<Tuple4<String, String, String, String>> input = ...
    
    BucketingSink<Tuple4<String, String, String, String>> bucketingSink
                = new BucketingSink<>("hdfs://hdfs-host/sink-location");
        bucketingSink.setBucketer(new HourBucketer());
        bucketingSink.setWriter(new Tuple4Writer());
        bucketingSink.setBatchSize(1024 * 1024 * 500); // 500M 一个文件
        sink.setInactiveBucketCheckInterval(1000); // 1秒钟检查一次多久没有写入了，用于判断是否从 in-progress 转变为 pending
        sink.setInactiveBucketThreshold(1000); // 多久不写入就从 in-progress 转变为 pending
        
    input.addSink(BucketingSink);

疯琴

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
Flink 使用 BucketingSink 分桶写入HSDFS 方便Hive查询

需求：用BucketingSink进行分桶sink，按照event time每小时一个分桶，即一个文件夹，方便Hive查询文件分桶说明在每个分桶文件夹内有若干文件，文件名为_part-8-0.in-progress或_part-81-0.pending或part-8-0，分别代表处于in-progress、pending和finish状态。文件关闭后就由in-progress转变到pen...
复制链接

扫一扫

专栏目录