1、Apache Hudi简介

1、Hudi简介

Hudi是Hadoop Updates and Incrementals的缩写,用于管理HDFS上的大型分析数据集存储,主要目的是高效的减少入库延时。

Hudi是一个开源Spark三方库,支持在Hadoop上执行upserts/insert/delete操作。

Hudi数据集通过自定义的InputFormat与当前的Hadoop生态系统(Hive、parquet、spark)集成,使该框架对最终用户来说是无缝的。

2、Hudi逻辑视图

读优化视图:在列式存储上提供出色的查询性能,非常像parquet表
增量视图:在数据集上提供一个变更流并提供给下游的作业和etl任务
准实时表:使用列存储和行存储以提供对实时数据的查询

3、Hudi存储引擎

Hudi将数据集组织到basePath下的分区目录中,类似与传统的hive表。数据集被分成分区,分区时包含该分区的数据文件的目录。每个分区由其相对于basepath的partitionpath唯一标识。在每个分区中,记录被分布到多个数据文件中。每个数据文件都由唯一的field和生成该文件的commit标识。对于更新,多个数据文件可以共享同一个field,但对应于不同的commit。

每条记录都由一个记录键(record key)唯一标识,并映射到一个field。一旦记录的第一个版本被写入文件,记录键和field之间的映射关系就永久不变。简而言之,field标识一组文件,而这些文件包含所有记录的所有版本数据。

Hudi的存储引擎由三个不同的部分组成:

Metadata࿱

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值