自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Hudi事务机制

Hudi和Delta Lake等数据湖项目类似,最初主要是针对业务数据经常发生改动但是数据仓库更新操作效率较为低下的问题而设计的,是一个处于计算引擎(Spark/Flink/Presto等)和大数据文件系统(HDFS/S3)之间的一个存储引擎层。随着大数据业务的快速发展,当前数据湖技术栈与数据仓库(MPP)整合起来构成了湖仓一体的架构,该架构可以兼顾海量结构化/非结构化数据的存储、加工和各类数据分析请求(离线/实时/交互式等)。

2024-03-14 13:43:11 551

原创 时间线Timeline

当对数据表的操作越来越多,时间线目录中文件会越来越多,当需要分析事件实例的状态时,需要扫描较多的小文件,这样就会影响到对数据的读写性能,因此需要定期将过期的事件实例进行归档并将归档文件放在.hoodie/archived目录下。时间线Timeline是Hudi的特有概念,表示数据湖的表在执行一系列事务操作过程中的事件对象信息,记录了每次事务操作的类型、时间戳和执行状态,同时也对于表的写入并发控制和保障事务的ACID特性提供了基础信息。

2024-02-28 14:50:35 939

原创 Hudi表存储

2)fileSlices:文件片,在一个文件组中可能发生多次数据写入,每次发生数据写入(COW表)或发生compaction后(MOR表)均会生成一个新版本的base文件,这个base文件及与MOR表产生的log文件的时间戳一致,并且时间戳一样的文件属于同一个fileSlice,可见,一个文件组下可能出现多个fileSlice,在一个flileSlice中有一个base文件,并且在MOR表情况下还会有一个或多个log文件。并且在文件末尾的Footer部分记录了文件中数据的索引信息来加速检索;

2024-01-16 11:42:24 1244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除