Hudi系列20: Bucket索引

一. Bucket 索引概述

从 0.11 开始支持
默认的flink 流式 写入使用 state 存储索引信息: primary key 到 fileID 的映射关系。 当数据量比较大的时候, state的存储开销可能成为瓶颈, bucket 索引通过固定的 hash 策略, 将相同 key 的数据分配到同一个 fileGroup 中,避免了索引的存储和查询开销。

1.1 WITH参数

名称Required默认值说明
index.typefalseFLINK STATE设置 BUCKET 开启 Bucket索引功能
hoodie.bucket.index.hash.fileIDfalse主键可以设置成主键的子集
hoodie.bucket.index.num.bucketsfalse4默认每个partition 的 bucket 数,当前设置后则不可再变更

1.2 和 state 索引的对比

  1. bucket index没有 state 的存储计算开销, 性能较好
  2. bucket index 无法扩 buckets, state index 则可以根据文件的大小动态扩容
  3. bucket index 不支持跨 partition 的变更(如果输入是 cdc 流则没有这个限制),state index 没有限制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值