数据湖Hudi-2-Hudi读写操作
数据读写操作
1.数据写
1.写操作
- 1.UPSERT:默认行为,数据先通过index打标(INSERT/UPDATE),有一些启发式算法决定消息的组织以优化文件的大小 => CDC导入
- 2.INSERT:跳过index,写入效率更高 => Log Deduplication
- 3.BULK_INSERT:写排序,对大数据量的Hudi表初始化友好,对文件大小的限制best effort(写HFile).
2.写流程(UPSERT)
3.写流程(INSERT)
4.写流程(INSERT OVERWRITE)
- 在同一分区中创建新的文件组集。现有的文件组被标记为“删除”。根据新记录的数量创建新的文件组。
- Insert Overwrite 的优缺点:
5.Key生成策略
6.删除策略
7.Hudi的相关优势总结
- 通过对写流程的梳理,可以了解到Apache Hudi相对于其他数据湖方案的核心优势:
2.数据读