![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据湖
文章平均质量分 96
大数据老司机
专注于大数据智能运维和大数据开发领域优质创作者
展开
-
大数据Hadoop之——Apache Hudi 与 Presto/Trino集成
Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上,并与流行的查询引擎(如Presto(Trino)、Apache Hive、ApacheSpark和Apache Impala)集成良好。鉴于Hudi开创了一种新的模型,它不仅仅是将文件写入到一个更受管理的存储层,该存储层原创 2022-10-30 00:29:28 · 2173 阅读 · 0 评论 -
大数据Hadoop之——Apache Hudi 数据湖实战操作(FlinkCDC)
Hudi 是一个流式数据湖平台大数据Hadoop之——新一代流式数据湖平台 Apache Hudi大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)数据处理:计算引擎,例如:flink、spark等。数据存储:HDFS、云存储、AWS S3、对象存储等。数据管理数据查询:查询引擎,例如:Spark、Trino(Presto)、Hive、Starrocks(Doris)等。原创 2022-10-29 01:00:42 · 3595 阅读 · 0 评论 -
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HDFS或云存储(S3)的工具,最主要的特点支持记录级别的插入更新(Upsert)和删除,同时还支持增量查询。大数据Hadoop之——新一代流式数据湖平台 Apache Hudi。原创 2022-10-22 18:37:23 · 2139 阅读 · 0 评论 -
大数据Hadoop之——新一代流式数据湖平台 Apache Hudi
Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HDFS或云存储(S3)的工具,最主要的特点支持记录级别的插入更新(Upsert)和删除,同时还支持增量查询。原创 2022-10-16 22:20:07 · 3927 阅读 · 0 评论