Hudi系列1:Hudi介绍

最新推荐文章于 2024-05-29 16:40:09 发布

只是甲

最新推荐文章于 2024-05-29 16:40:09 发布

阅读量1k

点赞数

分类专栏：大数据和数据仓库 # 数据湖文章标签：大数据

本文链接：https://blog.csdn.net/u010520724/article/details/128630632

版权

290 篇文章 107 订阅

订阅专栏

26 篇文章 3 订阅

订阅专栏

一. 什么是Hudi

Apache Hudi（发音“hoodie”）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表，事务，高效upserts /删除，高级索引，流式摄取服务，数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。

Apache Hudi不仅用于流媒体工作负载，还允许创建有效的增量批量流水线。包括 Uber, Amazon, ByteDance, Robinhood等以及更多的公司都在使用Hudi改造他们的生产数据湖泊。

Apache Hudi可以轻松使用在任何云存储平台上。Hudi的高级性能优化，使用任何流行的查询引擎进行分析工作负载，包括Apache Spark，Flink，Presto，Trino，Hive等。

2015 年：发表了增量处理的核心思想/原则（O’reilly 文章）

2016 年：由 Uber 创建并为所有数据库/关键业务提供支持

2017 年：由 Uber 开源，并支撑 100PB 数据湖

2018 年：吸引大量使用者，并因云计算普及

2019 年：成为 ASF 孵化项目，并增加更多平台组件

2020 年：毕业成为 Apache 顶级项目，社区、下载量、采用率增长超过 10 倍

2021 年：支持 Uber 500PB 数据湖，SQL DML、Flink 集成、索引、元服务器、缓存。

关注

专栏目录