Hudi系列19:Hudi写入模式

一. Changelog 模式

如果希望 Hoodie 保留消息的所有变更(I/-U/U/D), 之后接上 Flink 引擎的有状态计算实现全链路近实时数仓(增量计算), Hoodie 的 MOR 表通过行存 原生支持 保留消息的所有变更(format 层面的集成), 通过流读MOR 表可以消费到所有的变更记录。

1.1 WITH 参数

名称Required默认值说明
changelog.enabledfalsefalse默认是关闭的,即UPSERT语义,所有的消息仅保证最后一条合并消息,中间的变更可能会被merge掉: 改为true支持消费所有的变更

批(快照) 读仍然会合并所有的中间结果, 不管 format 是否已经存储中间的状态。

开启 changelog.enabled 参数后, 中间的变更也只是 Best Effort: 异步IDE压缩任务会将中间变更合并成1条,所以如果流读消费不够及时,被压缩后只能读取到最后一条记录。当然,通过调整压缩的buffer时间可以预留一定的时间 buffer 给 reader, 比如调整压缩比。

二. Append 模式

从 0.10 开始支持
对于INSERT模式:

  1. MOR 默认会 apply小文件策略: 会追加写 avro log 文件
  2. COW 每次直接写新的 parquet 文件,没有小文件策略

Hudi 支持丰富的 Clustering 策略, 优化 INSERT 模式下的小文件问题。

2.1 Inline Clustering

只有 Copy On Write 表支持该模式

名称Required默认值说明
write.insert.clusterfalsefalse是否在写入时合并小文件,COW表默认insert写不合并小文件,开启参数后, 每次写入会优先合并之前的小文件(不会去重), 吞吐会受影响

2.2 Async Clustering

从 0.12 开始支持

名称Required默认值说明
clustering.scheduler.enabledfalsefalse是否在写入时定时异步调度 clustering plan,默认关闭
clustering.delta_commitsfalse4跳读 clustering plan 的间隔 commits
clustering.async.enabledfalsefalse是否异步执行 clustering plan,默认关闭
clustering.tasksfalse4Clustering task 执行并发
clustering.plan.strtegy.target.file.max.bytesfalse102410241024Clustering 单文件目标大小,默认1GB
clustering.plan.strategy.small.file.limitfalse600小于该大小的文件才会参与clustering
clustering.plan.strategy.sort.columnsfalseN/A支持指定特殊的排序字段
clustering.plan.partition.filter.modefalseNONE支持 NONE: 不做限制 RECET DAYS:按时
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值