数据湖选型

名称HudiPaimonIcebergDelta Lake
安装依赖基础:Java
Hudi依赖于Apache Hadoop和Apache Spark
基础:Java
集群:Hadoop、Zookeeper
基础:Java基础:Java
Docker 部署可Docker 部署
ACID 事务支持✔️✔️✔️✔️
写时复制(Copy-On-Write, CoW)支持CoW不支持CoW,而是采用LSM Tree结构支持CoW支持CoW
读时合并(Merge-On-Read, MoR)✔️✔️但并行数受限✔️✔️
批量加载(Bulk Load)✔️Bulk Insert✖️✖️✖️
记录级索引(提高合并写入效率)✔️✔️✖️✔️
数据就地升级支持数据就地升级,无需重写数据✖️支持表迁移支持数据就地升级
增量查询(可以指定时间窗口)✔️✔️✔️✔️
时间旅行(Time Travel)✔️✔️✔️✔️
数据摄入支持DeltaStreamer支持Flink CDC导入不支持特定的数据摄入工具支持Spark Streaming和Flink CDC
并发控制支持非阻塞表服务的乐观并发控制(OCC)支持多个并发写作业的乐观并发控制支持乐观并发控制(OCC)支持乐观并发控制(OCC)
主键(Primary Key)✔️✔️✔️✔️
列统计和数据跳过(Data Skip)支持元数据中的列统计,显著提升查询性能支持基于索引的数据跳过支持列统计信息,提高查询性能支持列统计信息
分区管理不支持动态改变分区结构支持动态改变分区结构支持动态改变分区结构支持动态改变分区结构
重复数据删除支持重复数据删除支持重复数据删除支持合并时删除重复数据支持重复数据删除
文件大小调整支持自动调整文件大小不支持文件大小调整需要手动维护文件大小支持自动调整文件大小
Compaction支持自动Compaction支持自动Compaction需要手动维护Compaction支持自动Compaction
自动删除旧版本文件支持自动删除旧版本文件不完全支持,需要手动指定快照时间不完全支持,需要手动清理旧版本支持自动删除旧版本文件
分区清理✔️✔️✔️✔️
新增索引✔️✔️✖️✔️
线性聚类和聚类函数支持线性聚类和多种聚类函数不支持线性聚类不支持线性聚类支持线性聚类
元数据扩展性支持元数据根据数据大小进行扩展不完全支持,需要管理表布局不完全支持,需要管理文件布局支持元数据扩展性
数据质量检查和执行支持预提交验证器和数据质量检查✖️✖️支持数据质量检查
提交回调通知支持提交回调通知✖️✖️支持提交回调通知
保护免受提交失败数据写入的影响支持自动标记机制不支持,但有一致性保障机制不支持支持自动标记机制
监控支持自动监控的MetricsReporter支持不支持支持自动监控
数据恢复支持数据快照恢复不支持支持Flink的savepoint支持数据快照恢复
计算引擎支持支持Spark、Flink、Presto、Trino、Hive等支持Spark、Flink、Presto、Trino、Hive等支持Spark、Flink、Presto、Trino、Hive等支持Spark、Flink、Presto、Trino、Hive等

推荐

  • Hudi:适合需要高效更新、删除和合并操作的场景,特别是当数据需要频繁修改时。
  • Paimon:适合需要高性能读取和复杂数据处理的场景,特别是在Flink生态系统中。
  • Iceberg:适合需要高性能查询和大规模数据处理的场景,特别是当数据主要以追加方式写入时。
  • Delta Lake:适合需要高性能查询和ACID事务支持的场景,特别是在Spark生态系统中。

官网

Release 0.15.0 | Apache Hudi

Quickstart — Delta Lake Documentation

Apache Paimon | Apache Paimon

Introduction - Apache Iceberg™

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李好秀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值