【Hudi】数据湖Hudi核心概念与架构设计总结

Apache Hudi是一个基于Hadoop生态的开源数据湖解决方案,支持数据更新和删除,提供流批一体的存储。Hudi通过索引实现流式读/写,支持Copy On Write和Merge On Read两种表类型,提供实时快照、增量流等功能。其设计原则包括自管理、万物皆日志和键-值数据模型。Hudi时间轴、数据文件、索引设计以及读写流程确保了高效的数据操作和管理。
摘要由CSDN通过智能技术生成

Hudi是现在非常热门的数据湖开源方案,非常适合于搭建一个数据湖平台。

有些人认为数据湖肯定与大数据技术体系完全不一样,是两个东西,甚至认为他俩没关系。

但是,你知道Hudi的全称叫啥么?就是“Hadoop Updates and Incrementals”

简单来说,就是基于Hadoop生态,支持HDFS的数据删除和增量更新的技术框架。

所以,Apache Hudi其实本就是从Hadoop生态里来的,依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。同时基于update和Incrementals两个原语解决流批一体的存储问题:

  • Update/Delete 记录:Hudi 支持更新/删除记录,使用文件/记录级别索引,同时对写操作提供事务保证。查询可获取最新提交的快照来产生结果。

  • 变更流:支持增量获取表中所有更新/插入/删除的记录,从指定时间点开始进行增量查询,可以实现类似 Kafka 的增量消费机制。

图片

Hudi设计原则

流式读/写:Hudi借鉴了数据库设计的原理,从零设计,应用于大型数据集记录流的输入和输出。为此,Hudi提供了索引实现,可以将记录的键快速映射到其所在的文件位置。同样,对于流式输出数据,Hudi通过其特殊列添加并跟踪记录级的元数据,从而可以提供所有发生变更的精确增量流。<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九层之台起于累土

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值