问题描述:
往Hudi MOR(Merge On Read)表增量写数据,发现数据并没有按主键合并,存在重复数据.
主键 | ... | 分区 |
1 | ... | P_1 |
2 | ... | P_1 |
1 | ... | P_2 |
3 | ... | P_2 |
4 | ... | P_2 |
解决方法:
经分析重复数据只存在于不同分区内,如主键为1的数据,同分区内不存在重复数据。基于此可以使用全局(布隆)索引并设置HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION为true.
出于性能考虑,Hudi默认只对同分区内的数据去重,需要全局去重需要开启全局索引