flink读写filesystem

盛源_01

已于 2022-04-11 18:53:18 修改

阅读量2.8k

点赞数

分类专栏： flink 文章标签： flink

于 2022-04-06 18:24:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40829577/article/details/123995945

版权

flink 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

本文介绍了使用Flink SQL将数据写入Parquet格式的细节，包括配置文件系统、设置Parquet块大小和压缩方式。讨论了Parquet文件的生成规则，特别是小文件的优化，如自动合并小文件。总结了Flink在checkpoint时如何生成和合并Parquet文件，以及影响小文件优化的因素。此外，还提到了文件回滚的条件和文件可用的时间点。

摘要由CSDN通过智能技术生成

1 flink-sql写parquet格式

-

1 参考链接

Parquet | Apache Flink

ParquetOutputFormat - parquet-hadoop 1.10.0 javadoc

FileSystem | Apache Flink

注意: 多个链接要结合起来看

-

2 连接文件系统

CREATE TABLE test_fs_table (
  iid STRING,
  local_time TIMESTAMP,
  dt STRING,
  dh STRING
) PARTITIONED BY (dt,dh) WITH (
  'connector'='filesystem',
  'path'='out_path',
  'format'='parquet',
  'parquet.block.size'='128MB', -- 设定文件块大小
  'auto-compaction'='true', -- 开启自动合并小文件
  'compaction.file-size'='12MB', -- 合并文件大小
  'parquet.compression'='SNAPPY'  -- 指定压缩, 生成的文件名没有压缩类型标记
)

-

2 parquet文件生成规则

1) 数据量小, checkpoint内没超过parquet.block.size

2) 数据量较大, checkpoint内超过parquet.block.size

-

3) 文件回滚的条件

a.下个checkpoint来临

b.文件达到128M(parquet.block.size)

c.下个分区来临

-

3 小文件优化

影响因素:并行度、回滚时间、文件大小、checkpoint、compaction

1 flink-sql写parquet文件到

规则总结:

1)checkpoint时, 生成compact文件(立即可读), 下个checkpoint时删除uncompact(不可读)文件;

2) 只能合并单个checkpoint内的文件,不同checkpoint生成的文件是不会合并的;

3) 分区结束两个checkpoint后文件可用

参考链接:

Flink实战之合并小文件 - 简书

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

盛源_01 CSDN认证博客专家 CSDN认证企业博客

码龄7年

90: 原创

31万+: 周排名

5万+: 总排名

17万+: 访问

: 等级

1572: 积分

67: 粉丝

124: 获赞

17: 评论

296: 收藏

私信

关注

热门文章

分类专栏

hadoop 1篇
对象存储
Kafka
调度系统 1篇
airflow 4篇
spark 22篇
flink 8篇
IntelliJ_IDEA 1篇
通用类 8篇
数据质量 1篇
scala 1篇
大数据开发规范 3篇
waterdrop 1篇
presto 1篇
clickhouse 1篇
aws
Hbase
笔记 1篇
others
common 1篇
directory 4篇
python 4篇
java 2篇
linux 5篇
hive 8篇

最新评论

IntelliJ_IDEA使用笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
本地文件加载到hive表
CSDN-Ada助手: Hive 是否支持多表关联查询？
spark-sql读写数据源
CSDN-Ada助手: 大数据里的5V分别表示什么：Volume, Velocity, Variety, Veracity, Value?
spark日期时间处理
菜菜的大数据开发之路: 博主，我们互粉吧，大家一起加油，一起努力进步呀？
spark字符串操作处理
CSDN-Ada助手: 大数据包含结构化数据，非结构化数据，半结构化数据，怎么理解结构化？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。