Apache Hudi技术与架构-1

1 前言

Apache Hudi是大数据领域中新一代的基于流式计算的数据存储平台,又称之为数据湖平台(Data Lake Platform),其综合传统的数据库与数据仓库的核心功能,提供多样化的数据集成、数据处理以及数据存储的平台能力。Hudi提供的核心功能包括数据表管理服务、事务管理服务、高效的增删改查操作服务、先进的索引系统服务、流式数据采集服务、数据集群与压缩优化服务、高性能的并发控制服务,Hudi数据湖中的数据组织存储格式是使用开源的文件格式。

Apache Hudi能支持大规模的流式处理的工作负载,同时,也提供可创建高效的、增量式的、批量处理的数据管道。

Apache Hudi能轻易地部署在任何的云存储平台上,与目前流行的Apache Spark、Flink、Presto、Trino、Hive数据分析与查询引擎相结合能提供性能更加优越的数据分析能力。

2 架构描述

Apache Hudi数据湖平台的整体应用架构如下所示:

 Data Sources

数据源,提供数据的输入

 Apps & Microservices

应用与微服务类型的数据源,提供事件的输入

 Databases

SQL数据库或者NoSQL数据库类型的数据源,提供事件的输入

 Event Streams

消息或者事件中间件,接受来自其他数据源的事件的输入,汇聚成事件流

 Hudi Data Lake

Hudi数据湖平台,运用流式计算的技术提供大规模的、结构化或者非结构化类型数据的处理与存储服务

 DeltaStreamer/CDC

流式计算事件处理器/捕获数据变化,用于对事件流的处理以及处理事件的变化

 Row Tables

行式存储的数据表,用于存储上一步骤已经处理的事件

 Incremental ETL

数据仓库的标准处理步骤,使用增量式、流式、管道式计算事件处理器,汇聚成下一事件流的输入

 Derived Tables

存储上一步骤的输入流事件,或者是最终待分析的数据

 Lake Storage

Hudi数据表的数据组织存储,支持HDFS或者公有云环境中的对象存储

 Queries

查询引擎,提供Hudi数据湖的查询与检索服务

 Pipelines

分析引擎,提供Hudi数据湖的查询与分析服务

(未完待续)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Apache Hudi是一个开源Spark库,用于在Hadoop上执行诸如更新、插入和删除等操作。它还允许用户仅摄取更改的数据,提高查询效率,并可以像任何作业一样水平扩展,并将数据集直接存储在HDFS上。 Apache Hudi使用插入(upsert)和增量拉取等原语,将流式处理带到了类批处理的大数据中,从而实现了高效的数据管理和处理。 Apache Hudi经过一年半的发展后,已经以顶级项目的身份毕业于Apache软件基金会,这意味着它已经得到了广泛的认可和支持,成为一个可信赖的工具。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Apache Hudi 是什么?](https://blog.csdn.net/Shockang/article/details/126825709)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Apache 数据湖Hudi详解一](https://blog.csdn.net/weixin_41652703/article/details/116562798)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangys2006

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值