Iceberg知识集
文章平均质量分 92
Iceberg相关知识
不甚了然
这个作者很懒,什么都没留下…
展开
-
StarRocks分布式元数据源码解析
StarRocks分布式解析Iceberg元数据流程原创 2024-07-09 18:41:55 · 1045 阅读 · 0 评论 -
Iceberg Changelog
Iceberg流式更新目前只支持Append的数据,不支持更新删除。原创 2024-03-04 20:20:51 · 1014 阅读 · 0 评论 -
IcebergTableSource
Flink IcebergTableSource原创 2023-03-11 10:00:57 · 247 阅读 · 0 评论 -
Iceberg Flink FLIP-27实现
前面步骤完成后是把所有的分片全部放在了assigner当中,没有进行分配。分配在AbstractIcebergEnumerator接口当中定义,这是Iceberg当中enumerator的最上层父类,直接实现Flink的SplitEnumeratorSplitEnumerator定义了handleSourceEvent接口,负责处理来自读取器的自定义消息,有SourceCoordinator调用LOG.debug(subtask,原创 2024-02-28 09:37:56 · 1226 阅读 · 0 评论 -
Iceberg小文件合并
Iceberg提供了Actions来进行小文件合并,需要手动调用执行这个任务目前仅仅将小文件进行了合并生成大文件,但旧的文件并没有删除,也就是文件反而变多了功能一路调用,到RowDataRewriter类中的rewriteDataForTasks这里构建Flink任务,核心是RewriteMap的算子,其map方法如下,本质是读取并写入数据注意,这边小文件合并任务是多并发的,目前flink的并发度这里不提供配置,所以用的是flink的parallelism.default的值。原创 2024-02-27 20:26:06 · 847 阅读 · 0 评论 -
hudi索引
索引实现的基类,核心方法是两个:tagLocation和updateLocation后续有不同的子类实现具体的索引。原创 2024-02-27 20:22:59 · 978 阅读 · 0 评论 -
Iceberg读取过程
与写入过程类似,IcebergTableSource对标IcebergTableSink,produceDataStream对标consumeDataStream,在Flink SQL的同一处理流程中产生这里稍微特殊的是,由于Flink的Source提供了两版实现,所以produceDataStream也根据条件内部有两条分支。FLIP27是Flink新的Source结构以传统的DataStream追踪,通过FlinkSource的build构建,分批和流两种场景。原创 2023-08-03 21:02:15 · 268 阅读 · 0 评论 -
Iceberg写入接口
Iceberg写数据文件时的类调用关系:TaskWriter -> BaseRollingWriter -> FileWriter -> FileAppender -> Iceberg封装的文件类型实现类 -> 具体文件类型的实现类。原创 2023-05-26 18:29:09 · 269 阅读 · 0 评论 -
Iceberg写入过程
Iceberg的写入数据流程原创 2023-04-09 17:02:18 · 1242 阅读 · 0 评论