数据湖对比(hudi,iceberg,paimon,Delta)

Delta

数据湖

Delta

更新原理

update/delete/merge 实现均基于spark的join功能。

定位

做基于spark做流批一体的数据处理

缺点

本质为批处理。强绑定spark引擎。整体性能相较其他数据湖比较差

hudi

数据湖

hudi

更新原理

通过hudi自定义的主键索引hoodiekey + 布隆过滤器 + 文件join合并实现更新

定位

面向spark,为了解决在hadoop体系内数据更新和增量查询的问题。定位是实现数仓+数据库的功能。

缺点

本质为批处理

整体架构耦合性强,系统设计复杂,各个引擎之间的兼容性较差,参数众多。

趋势在不断的在完善面向批处理的架构细节改造,对spark友好,无法彻底适配流处理更新能力。

 iceberg

数据湖

iceberg

更新原理

写入时数据分为delete 和 insert 文件,查询时通过序列号定位文件生成先后 + join 得到最后结果

定位

官方定位是面向海量数据分析场景,底层设计抽象,通用标准设计。不依赖任何计算引擎。

缺点

本质为批处理,主打离线数据湖和扩展性

在国外的应用场景主要是离线取代 Hive,虽然扩展性强,也导致计算引擎有较多优化空间,后续发展难以迅速,需要涉及众多对接引擎。

paimon

数据湖

paimon

更新原理

通过内存 + 磁盘实现lsm数据结构

定位

CDC更新入湖,可被准实时查询,并大幅简化入湖架构。 
支持 Partial-Update 能力,基于相同的主键做到部分数据更新,也可以根据该功能实现各个流实时地打宽。 
支持流入的数据生成变更日志,给下游更好的流计算。简化流计算链路。 
Paimon 作为湖存储格式,有很强的 Append 处理,并给 Append 表上多了流读流写Z-Order排序后加速查询的能力。

优点

  1. 统一的批处理和流处理

  2. 作为数据湖存储系统,Paimon具有低成本、高可靠性、可扩展的元数据等特性

  3. 丰富的合并引擎

  4. 自动生成变更日志

  5. 丰富的表类型

  6. 支持表结构变更同步(也可以称为Schema模式演变)

  7. 提供流读增强,tag视图,数据打宽等多种能力

总结:

个人更倾向于paimon的数据湖能力,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。总结一句话就是真正面向实时更新而设计的数据湖格式。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
实时数据湖是一种数据存储和管理架构,具有实时和可靠的特性。DeltaHudiIceberg是实时数据湖的三种常见的开源工具。 Delta是由Databricks开发的一种用于构建实时数据湖的开源工具。它提供了事务一致性、数据不可变性和快速查询等特性。Delta使用了写时复制技术,可以实现数据的原子性和一致性,并支持合并(merge)操作,使得数据的变更能够实时应用于数据湖中。 Hudi(Hadoop Upserts Deletes and Incrementals)是一种由Uber开源的实时数据湖工具。它能够支持插入、更新和删除等数据操作,并且具备增量数据的流式处理能力。Hudi还支持异步索引构建和数据快照等功能,能够提供较好的查询性能和数据一致性。 Iceberg是由Netflix开源的一种用于构建实时数据湖的工具。它提供了强大的事务性写入、时间旅行查询和模式演化等功能。Iceberg支持快照(snapshot)和版本控制的方式管理数据,可以实现数据的版本回退和数据架构的演化。 这三种工具都可以用于实时数据湖的构建,但在具体应用上有一些差异。Delta更加关注与数据湖和Apache Spark的集成,适用于需要高性能和大规模数据处理的场景。Hudi则更适用于增量数据流的处理和对数据进行实时更新的需求。Iceberg则更注重数据版本管理和数据架构演化的能力。根据具体的业务需求和技术栈选择适合的工具,可以更好地构建实时数据湖
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘狗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值