数据湖-方案对比

数据湖架构结合了数据湖和数据仓库。虽然它不仅仅是两者之间的简单集成,但其理念是充分发挥两种架构的优势:数据仓库的可靠交易以及数据湖的可扩展性和低成本。

Lakehouse 架构支持管理各种数据类型,例如结构化、半结构化和非结构化数据,并可满足各种用例的需求,包括商业智能、机器学习和实时流式传输。这种灵活性使企业能够摆脱传统的两层架构——使用仓库处理关系工作负载,使用数据湖进行机器学习和高级分析。因此,组织可以通过使用单个数据存储来降低运营成本并简化其数据策略。

目前比较常用的数据湖有hudi、iceberge、delta lake及paimon。

项目

Apache Iceberg

Apache Hudi

Delta Lake

Apache Paimon

开源时间

2018/11/6

2019/1/17

2019/4

2023/3/12

Github Star

6.1k

5.3k

7.4k

2.3k

update/delete

支持

支持

支持

支持

文件合并

手动

自动

自动

自动

历史数据清理

手动

自动

自动

自动

文件格式

parquet,avro,orc

parquet,avro

parquet

parquet,avro,orc

计算引擎

Hive/Spark/Presto/Flink/Impala

/Trino等

Hive/Spark/Presto/Flink/Impala

/Trino等

Hive/Spark/Presto

Hive/Spark/Presto/Flink

/Trino

存储引擎

HDFS/S3

HDFS/S3/OBS/ALLUXIO/Azure

HDFS/S3/Azure

HDFS/S3/OSS

SQL DML

支持

支持

支持

支持

ACID事务

支持

支持

支持

支持

索引

不支持

支持

不支持

支持

Timeline

支持

支持

支持

支持

可扩展的元数据存储

支持

支持

支持

支持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值