实时数据湖业务场景
随着业务场景的不断变化,企业对数据服务实时化的需求日益增多。为了满足这一点,需要在分布式文件系统(如HDFS)实现高效且低延迟的数据摄取及数据准备,从而构建面向分钟级延时场景的通用统一服务层实时数据湖解决方案对比
实时数据流管道
DFS上实时数据流解决方案
Hudi表存储类型对比
一旦首次数据写入时确定了Hudi存储格式,不能再修改。COW存储格式不需要压缩:
ERROR HoodieCompactor: org.apache.hudi.HoodieNotSupportedException: Compaction is not supported on a CopyOnWrite table
Hudi操作类型使用场景
并发:
hoodie.bulkinsert.shuffle.parallelism
hoodie.insert.shuffle.parallelism
hoodie.upsert.shuffle.parallelism
hoodie.delete.