数据湖三剑客Delt Lake、Hudi、Iceberg详解

本文介绍了数据湖的基本概念和发展,重点探讨了Hadoop、Hive的演变以及湖仓一体的概念。核心技术包括Time Travel、ACID Transaction和Schema Evolution。数据湖三剑客——Iceberg、Hudi和Delta Lake各自具备特色:Iceberg支持灵活的partition evolution,Hudi采用Copy on Write与Merge on Read策略,而Delta Lake实现了流批一体。通过对三者比较,展现了当前数据湖技术的最新进展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据湖基本概念和发展历史

Hadoop

  1. 数据湖最开始的概念---分布式存储HDFS
  2. 好处:同一公司/组织可以使用共享存储;数据访问方便,灵活性高
  3. 坏处:没有记录文件的schema、难以得知数据集包含哪些文件,是通过什么样的分区组织的、如果多个程序都在修改这个数据集,其他程序难以配合做修改

Hive

  1. 数据湖的演进---Hive Metastore(元数据存入mysql中)
  2. 对数据湖中的数据集进行集中定义
  3. 问题:
  1. 静态表------读取方便,有写操作,不同用户读取的文件可能不同(读写冲突、写写冲突)
  2. 对于schema数据,只能在尾列后面增加列而不能删除或修改列------------重写一张表(支持更多样的schema变更)

湖仓一体

数据仓库

  1. 数据仓库将数据从数据源提取和转换,加载到目的地
  2. 数据仓库存储+计算不分离
  3. 数据仓库严格控制写入数据的schema

数据仓库vs数据湖

数据仓库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值