2021-08-31 FlinkSQL 文件滚动探究

本文探讨了Flink SQL在文件滚动过程中遇到的问题,包括文件未标记为finished状态和产生过多小文件。解决方案涉及配置参数调整,如auto-compaction参数,以确保文件在checkpoint后正确合并并达到预期的滚动策略。
摘要由CSDN通过智能技术生成

Flink Sql的文件滚动的探究

背景

最近有一次在使用flink sql connector的过程当中,我们使用flink kafka connectorkafka中读取出来的数据存储到hdfs中,写到hdfsconnector 是使用flink自带的filesystem connector写到hdfs的文件系统当中。
在实际的使用当中,我们调整了如下参数

开始配置参数

auto-compaction = true
compaction.file-size = 128MB
sink.rolling-policy.file-size=128MB
sink.rolling-policy.rollover-interval = 1h
...

上述配置的预计是想让这个flink connector自动聚合,然后文件大小为128MB的时候滚动一下,或者在时间为一个小时的时候滚动一下文件。
但是在实践当中我们遇到了以下几个问题:

flink程序输出的文件没有被标记为finshed状态

在程序启动的时候,如果flink程序获取到了数据之后,然后向kafka输入的时候,flink程序生成的文件会有inprogress的字样。这样的文件会导致下游的程序无法正常的读取。

处理办法

在flink的程序当中&#x
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值