FLINK 1.12.2 流式写入HDFS(hive)的几种方式

Flink 1.12.2 写入hdfs有3种方式,依照api出现的先后依次介绍,重点介绍Flink SQL on Hive的方式。

目录

1 streaming file sink

2 FileSink

3 Flink SQL on Hive

3.1添加依赖

3.2 配置Hive Catalog及使用Flink终端访问Hive

3.3 代码调用Flink SQL写入Hive

4 总结


1 streaming file sink

1.7版Flink开始支持通过StreamingFileSink实现写入hdfs,支持exactly-once语义,基于checkpoint实现两阶段提交(即需要设置checkpoint)。一般应用于实时数仓、topic拆分、基于小时的分析处理等。

StreamingFileSink提供了2个写入API:

  • forRowFormat方法,把读到的信息按照行存储的格式写入hdfs上,官网上有例子。
  • forBulkFormat方法,指定其他的存储格式,例如:parquet,Avro,ORC等等。

Flink 提供了两个分桶策略:

  • BasePathBucketAssigner,不分桶,所有文件写到根目录;
  • DateTimeBucketAssigner,基于系统时间(yyyy-MM-dd–HH)分桶。

StreamingFileSink的滚动策略有2种,滚动策略实际上就是flink何时写文件的方式:

  • (默认)滚动策略生成器DefaultRollingPolicy:当超过最大桶大小(默认为 128 MB),或超过了滚动周期(默认为 60秒),或未写入数据处于不活跃状态超时(默认为 60 秒)的时候,滚动文件;
  • checkpoint滚动策略生成器OnCheckpointRollingPolicy: 当 checkpoint 的时候,滚动文件。

需要注意:

  • Flink的分桶意义与HDFS不同,Flink的分桶指的是将文件放在不同的文件夹中,相当于HDFS分区的概念
  • 当使用forRowFormat方法时,
  • 10
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 16
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值