![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 96
别惹猪儿虫
这个作者很懒,什么都没留下…
展开
-
Hudi系列文章7-RFC24 Flink 写入流程优化
此篇文章主要针对官方 RFC-24 进行分析, RFC-24 主要针对当时Hudi 整合 Flink 存在的 4 个瓶颈提出的一些解决思路, 这个思路决定了后续 Flink 写 Hudi 的基本框架,所以是想了解 Flink 写 Hudi 最重要的一个 RFC原创 2023-10-30 17:37:33 · 240 阅读 · 0 评论 -
Hudi-源码-索引-bloom 索引
Bloom 索引是 Hudi 中非常重要的一个索引,他利用 Bloom 过滤器进行快速确认原理: 利用存在 parquet 文件 Footer 的Bloom 过滤器过滤,然后挨个遍历符合的文件优化手段有哪些缓存range 修剪树化优缺点优点存储空间少简单缺点假阳性问题Flink 无法使用小文件问题(不确定)如何消除假阳性影响把所有阳性(符合条件)的文件全部打开都真正遍历一遍, 查看RecordKey 是否真的在文件中。原创 2023-10-19 17:26:59 · 141 阅读 · 0 评论 -
Hudi Flink-索引机制-index
Hudi 系列文章在这个这里查看 https://github.com/leosanqing/big-data-study索引(Index)是 Hudi 最重要的特性之一,也是区别于之前传统数仓 Hive 的重要特点, 是实现 Time Travel, Update/Delete,事务 等重要特性的基础。原创 2023-10-08 20:30:50 · 296 阅读 · 0 评论