1. 引入
Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块hudi-hive-sync进行了抽象改造,以支持将Hudi表同步到其他类型MetaStore中,如阿里云的数据湖分析DLA(https://www.aliyun.com/product/datalakeanalytics)中。
2. 抽象
将Hudi表同步至Hive MetaStore的代码在hudi-hive-sync模块,为兼容更多类型MetaStore,现将其改造为如下模块
hudi-sync|-hudi-sync-common|-hudi-hive-sync|-hudi-dla-sync
其中各模块说明如下
- hudi-sync-common表示元数据同步公共模块,用于存放一些用于同步的公共父类;
- hudi-hive-sync表示同步Hive模块;
- hudi-dla-sync表示同步阿里云DLA模块;
基于上述结构,用户可基于hudi-sync-common构建自定义的元数据同步逻辑。
3. 配置
下面以DLA为例,介绍如何通过Spark写入Hudi表后自动将Hudi表同步至DLA中