![](https://img-blog.csdnimg.cn/20190927151026427.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
湖仓一体(Delta、Hudi、Iceberg)
文章平均质量分 95
(Delta、Hudi、Iceberg)
四月天03
能用钱解决的问题,千万别花时间
展开
-
Flink + Iceberg打造流批一体的数据湖架构
对于数据湖架构来说,数据文件在HDFS的分布组织是由写入任务决定的,而对于分布式数仓来说,数据一般是通过JDBC写入,数据的存储组织方式是由数仓本身决定的,所以数仓可以按照对于查询更加友好的方式组织数据的存储,比如对数据文件定期compact到合适的大小或者对数据进行合理排序和分组,对于大规模的数据来说,数据的优化组织可以大大提高查询的效率。在这里需要做一个概念上的澄清:数据湖关注的是对原始数据高效、灵活的处理,DWD 及其他数仓分层是充分设计的数据模型,它并不符合我们对数据湖的定义和需求。原创 2023-03-10 17:44:44 · 4542 阅读 · 0 评论 -
Apache+Hudi入门指南: Spark+Hudi+Hive+Presto
hive集成hudi方法:将hudi jar复制到hive lib下cp ./packaging/hudi-hadoop-mr-bundle/target/hudi-hadoop-mr-bundle-0.5.2-SNAPSHOT.jar $HIVE_HOME/lib4.1 hivehive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些p.原创 2021-11-16 18:16:08 · 2509 阅读 · 0 评论 -
流批一体--将Kafka流式数据摄取至Hudi
Hudi支持以下存储数据的视图读优化视图 : 在此视图上的查询将查看给定提交或压缩操作中数据集的最新快照。该视图仅将最新parquet文件暴露给查询,所以它有可能看不到最新的数据,并保证与非Hudi列式数据集相比,具有相同的列式查询性能 增量视图 : 对该视图的查询只能看到从某个提交/压缩后写入数据集的新数据。该视图有效地提供了更改流,来支持增量数据管道。 实时视图 : 在此视图上的查询将查看某个增量提交操作中数据集的最新快照。该视图通过动态合并最新的基本文件和增量文件来提供近实时数据集。一、将.原创 2021-11-16 11:40:51 · 3746 阅读 · 1 评论 -
Apache Hudi简介、与Kudu、Hive、 HBase对比
数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、Spark Streaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的Apache Hudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台,比如Hive中。业务场景和技术选型传统的离线数仓,通常数据是T+1的,不能满足对当日数据分析的需求原创 2021-11-15 18:24:28 · 18033 阅读 · 1 评论 -
湖仓一体平台构建实践 (基于 Iceberg )
湖仓一体架构如上图所示,采用 Iceberg 来存储数据,数据是在 HDFS 上。入湖的几条链路包括 FIink、Spark 引擎来写入,Spark和Flink可以接入流或者批的数据写入Iceberg,也提供 java 的 API,业务方可以直接通过 API 来写入数据,后台有一个叫做 Magnus 的服务对 Iceberg 的数据进行不断的优化。另外我们也用 Alluxio 来对数据进行缓存加速。我们使用 Trino 来进行交互式分析,对外提供查询接口。原创 2022-07-04 11:43:58 · 2136 阅读 · 0 评论 -
Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
通过上面的分析能够看到,三个引擎的初衷场景并不完全相同,Hudi 为了 incremental 的 upserts,Iceberg 定位于高性能的分析与可靠的数据管理,Delta 定位于流批一体的数据处理。这种场景的不同也造成了三者在设计上的差别。尤其是 Hudi,其设计与另外两个相比差别更为明显。随着时间的发展,三者都在不断补齐自己缺失的能力,可能在将来会彼此趋同,互相侵入对方的领地。当然也有可能各自关注自己专长的场景,筑起自己的优势壁垒,因此最终谁赢谁输还是未知之数。原创 2021-12-11 16:32:43 · 5994 阅读 · 0 评论