hudi系列-schema evolution

最新推荐文章于 2024-05-12 16:45:34 发布

矛始

最新推荐文章于 2024-05-12 16:45:34 发布

阅读量198

点赞数

分类专栏： hudi系列文章标签： hudi evolution 模式演变

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/czmacd/article/details/137792432

版权

hudi系列专栏收录该内容

22 篇文章 32 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在RFC-33中描述，hudi对schema evolution进行了统一设计，在官网文档中也指明了从0.11版本开始，spark-sql ddl是支持schema evolution的，而flink-sql在旧版本中并不支持ddl方式对表结构，所以full schema evolution都隐藏在读写过程中。对于使用者，我们最终只关心表的读和写，但从实现层面来看，schema evolution需要覆盖不同的数据文件格式，还需要集成在各种hudi的表服务中。

hudi 0.13.1
flink 1.14.5

schema on read模式

schema on read模式下才支持复杂的schema evolution，目前需要显式启用hoodie.schema.on.read.enable，否则默认是非schema on read模式

语义

hudi中提供的完整schema evolution语义如下，目前spark已经全面实现，而flink因未对接ddl，所以尚未支持重命名。

添加一个新列到表或者嵌套的结构体
从表或嵌套的结构体删除一个已有列
将一个已有的列或结构体内的字段重命名
将数据类型更改为范围更大，包括列、结构体字段、map键值、数组元素的类型
改变列或嵌套结构体的字段顺序<

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hudi系列-schema evolution

hudi对schema evolution进行了统一设计，在官网文档中也指明了从0.11版本开始，spark-sql ddl是支持schema evolution的，而flink-sql在旧版本中并不支持ddl方式对表结构，所以full schema evolution都隐藏在读写过程中。对于使用者，我们最终只关心表的读和写，但从实现层面来看，schema evolution需要覆盖不同的数据文件格式，还需要集成在各种hudi的表服务中。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。