- 博客(3)
- 收藏
- 关注
原创 Hudi事务机制
Hudi和Delta Lake等数据湖项目类似,最初主要是针对业务数据经常发生改动但是数据仓库更新操作效率较为低下的问题而设计的,是一个处于计算引擎(Spark/Flink/Presto等)和大数据文件系统(HDFS/S3)之间的一个存储引擎层。随着大数据业务的快速发展,当前数据湖技术栈与数据仓库(MPP)整合起来构成了湖仓一体的架构,该架构可以兼顾海量结构化/非结构化数据的存储、加工和各类数据分析请求(离线/实时/交互式等)。
2024-03-14 13:43:11 551
原创 时间线Timeline
当对数据表的操作越来越多,时间线目录中文件会越来越多,当需要分析事件实例的状态时,需要扫描较多的小文件,这样就会影响到对数据的读写性能,因此需要定期将过期的事件实例进行归档并将归档文件放在.hoodie/archived目录下。时间线Timeline是Hudi的特有概念,表示数据湖的表在执行一系列事务操作过程中的事件对象信息,记录了每次事务操作的类型、时间戳和执行状态,同时也对于表的写入并发控制和保障事务的ACID特性提供了基础信息。
2024-02-28 14:50:35 939
原创 Hudi表存储
2)fileSlices:文件片,在一个文件组中可能发生多次数据写入,每次发生数据写入(COW表)或发生compaction后(MOR表)均会生成一个新版本的base文件,这个base文件及与MOR表产生的log文件的时间戳一致,并且时间戳一样的文件属于同一个fileSlice,可见,一个文件组下可能出现多个fileSlice,在一个flileSlice中有一个base文件,并且在MOR表情况下还会有一个或多个log文件。并且在文件末尾的Footer部分记录了文件中数据的索引信息来加速检索;
2024-01-16 11:42:24 1244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人