匠人精神，持之以恒！

星光不问赶路人，时光不负有心人！

数据湖

关注

文章平均质量分 96

关注数：文章数：4 文章阅读量：11830 文章收藏量：50

作者: 大数据老司机

专注于大数据智能运维和大数据开发领域优质创作者

展开

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

Apache Hudi是一个快速增长的数据湖存储系统，可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语，将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统（HDFS）或云存储上，并与流行的查询引擎（如Presto（Trino）、Apache Hive、ApacheSpark和Apache Impala）集成良好。鉴于Hudi开创了一种新的模型，它不仅仅是将文件写入到一个更受管理的存储层，该存储层

原创 2022-10-30 00:29:28 · 2173 阅读 · 0 评论
大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

Hudi 是一个流式数据湖平台大数据Hadoop之——新一代流式数据湖平台 Apache Hudi大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）数据处理：计算引擎，例如：flink、spark等。数据存储：HDFS、云存储、AWS S3、对象存储等。数据管理数据查询：查询引擎，例如：Spark、Trino（Presto）、Hive、Starrocks（Doris）等。

原创 2022-10-29 01:00:42 · 3595 阅读 · 0 评论
大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具，它可以以极低的延迟将数据快速存储到HDFS或云存储（S3）的工具，最主要的特点支持记录级别的插入更新（Upsert）和删除，同时还支持增量查询。大数据Hadoop之——新一代流式数据湖平台 Apache Hudi。

原创 2022-10-22 18:37:23 · 2139 阅读 · 0 评论
大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具，它可以以极低的延迟将数据快速存储到HDFS或云存储（S3）的工具，最主要的特点支持记录级别的插入更新（Upsert）和删除，同时还支持增量查询。

原创 2022-10-16 22:20:07 · 3927 阅读 · 0 评论