Hudi学习笔记(一)

最新推荐文章于 2024-10-14 11:56:37 发布

一一|一一一亅

最新推荐文章于 2024-10-14 11:56:37 发布

阅读量519

点赞数 7

文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_22152499/article/details/135832796

版权

本文介绍了Hudi在大数据背景下，作为数据湖解决方案，支持Spark和Flink的集成，提供快速数据变更管理和低延迟存储。内容涵盖了数据湖与数据仓库的区别、Hudi的基本功能、版本更新以及其在数据写入、查询和集成方面的特性。

摘要由CSDN通过智能技术生成

Hudi用于管理分布式文件系统上大型分析数据集存储，支持Spark和Flink整合。它能够是DFS数据集在分钟级时延内支持变更，也支持下游系统对这个数据集的增量处理。

数据仓库是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持。

数据仓库是优化的数据库，用于分析业务的关系数据。数据湖数据来自关系数据和非关系数据。

delta Lake
支持update/delete/merge
Iceberg
Hudi(Hadoop upsert and incrementals)
fast upsert/delete/compaction功能，管理存储在Hdfs上的数据。支持快速upsert/delete。

Hudi是在大数据存储上的一个数据集，可以将Change Logs通过upsert的方式合并进hudi。
可以暴露成普通的Hive或Spark表，通过API或命令行可以获取增量修改的信息，供下游消费。
Hudi保管修改历史，可以时间旅行或回退。
内部有主键到文件级的索引，默认是记录到文件的布隆过滤器。
提供了两种方式的原语言：
-Update/delete记录：使用细粒度的文件/记录级别索引支持update/delete记录，同时保证写操作的事务保证，查询会处理最后一个提交的快照，并基于此输出结果。
-变更流：Hudi对过去数据变更提供了一流的支持：可以从给定时间点获取给定表中update/insert/deleted的所有记录的增量流，并解锁新的查询姿势。