![](https://img-blog.csdnimg.cn/fa95da804522435ca4022ead40e489ff.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hudi内核
文章平均质量分 93
介绍Hudi的内核设计及源码分析。
ksmou
这个作者很懒,什么都没留下…
展开
-
Hudi压缩(compaction)实现分析
Hudi 写 MergeOnRead 表时为提高流式写入速度,直接以 Avro 格式向文件系统中写入 log 文件,然后提供一种数据压缩的的方式对 log 文件进行压缩,如果合并计划中只含有 log 文件,则将 log 文件压缩成 parquet 文件,然后开始写新的 log 文件,如果合并计划同时包含 log 文件和 parquet 文件,则将两种格式的文件进行压缩生成新的 parquet 文件,然后开始写新的 log 文件,Hudi 将这种压缩方式称为 Compaction。原创 2023-08-07 20:36:02 · 519 阅读 · 0 评论 -
Hudi聚簇(Clustering)实现分析
Hudi 提供了一种数据重组方式 clustering,主要用于对 CopyOnWrite 存储类型的表文件进行合并。原创 2023-06-28 15:14:47 · 575 阅读 · 1 评论