扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦
简介
StreamingFileSink用来将分区文件写入到支持 Flink FileSystem 接口的文件系统中,支持Exactly-Once语义。这种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍StreamingFileSink的基本用法、如何压缩数据以及合并产生的小文件。
注意:官网已经说明:BucketingSink在flink1.
本文介绍了Flink的StreamingFileSink的使用,包括基本用法、文件压缩和小文件处理。重点讲解了part file的生命周期,并提出减少并行度、增大checkpoint周期以及下游任务合并处理等解决小文件问题的方法。Flink 1.12新增了小文件合并功能以应对频繁checkpoint导致的大量小文件问题。

订阅专栏 解锁全文
1679

被折叠的 条评论
为什么被折叠?



