数据湖三剑客Delt Lake、Hudi、Iceberg详解

数据湖基本概念和发展历史

Hadoop

  1. 数据湖最开始的概念---分布式存储HDFS
  2. 好处:同一公司/组织可以使用共享存储;数据访问方便,灵活性高
  3. 坏处:没有记录文件的schema、难以得知数据集包含哪些文件,是通过什么样的分区组织的、如果多个程序都在修改这个数据集,其他程序难以配合做修改

Hive

  1. 数据湖的演进---Hive Metastore(元数据存入mysql中)
  2. 对数据湖中的数据集进行集中定义
  3. 问题:
  1. 静态表------读取方便,有写操作,不同用户读取的文件可能不同(读写冲突、写写冲突)
  2. 对于schema数据,只能在尾列后面增加列而不能删除或修改列------------重写一张表(支持更多样的schema变更)

湖仓一体

数据仓库

  1. 数据仓库将数据从数据源提取和转换,加载到目的地
  2. 数据仓库存储+计算不分离
  3. 数据仓库严格控制写入数据的schema

数据仓库vs数据湖

数据仓库
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值