【Hudi】Apache Hudi 设计与架构最强解读

最新推荐文章于 2024-03-27 02:59:51 发布

九层之台起于累土

最新推荐文章于 2024-03-27 02:59:51 发布

阅读量137

点赞数

分类专栏：【Streamsets】文章标签： apache 架构大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54252387/article/details/125526181

版权

【Streamsets】专栏收录该内容

37 篇文章 15 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Apache Hudi是一个大数据处理框架，它支持在Hadoop兼容存储上进行流处理，提供更新、删除记录及变更流功能。Hudi通过细粒度索引实现高效写入和查询，支持Copy On Write (COW) 和 Merge On Read (MOR) 表类型，优化写入性能和数据新鲜度。设计原则包括流式读/写、自管理和日志结构化存储。表设计涉及时间轴、数据文件和索引，其中时间轴用于跟踪数据变化，数据文件以文件组形式组织，索引提供高效upsert操作。Hudi支持快照查询、增量查询和读优化查询，以满足不同场景需求。

摘要由CSDN通过智能技术生成

本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。

1.简介

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是：

Update/Delete****记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询会处理最后一个提交的快照，并基于此输出结果。
变更流：Hudi对获取数据变更提供了一流的支持：可以从给定的时间点获取给定表中已updated/inserted/deleted的所有记录的增量流，并解锁新的查询姿势（类别）。

这些原语紧密结合，解锁了基于DFS抽象的流/增量处理能力。如果您熟悉流处理，那么这和从kafka主题消费事件，然后使用状态存储逐步累加中间结果类似。这在架构上会有以下几点优势：1）效率的提升：摄取数据通常需要处理更新、删除以及强制唯一键约束。然而，由于缺乏像Hudi这样能对这些功能提供标准支持的系统，数据工程师们通常会采用大批量的作业来重新处理一整天的事件，或者每次运行都重新加载整个上游数据库，从而导致大量的计算资源浪费。由于Hudi支持记录级更新，它通过只处理有变更的记录并且只重写表中已更新/删除的部分，而不是重

了解本专栏

超级会员免费看

九层之台起于累土

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Hudi】Apache Hudi 设计与架构最强解读

本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是：Update/Delete****记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询会处理最后一个提交的快照，并基于此输出结果。变更流：Hudi对获取数据变更提供了一流的支持：可以从给定的时间点获取
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

九层之台起于累土 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。