hudi系列-流式增量查询

矛始

已于 2022-08-05 17:59:35 修改

阅读量8.2k

点赞数 2

分类专栏： hudi系列文章标签：大数据 hudi 增量查询 flink 数据仓库

于 2022-07-29 17:06:24 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/czmacd/article/details/126059726

版权

hudi系列专栏收录该内容

22 篇文章 33 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Hudi与Flink集成实现流式增量查询的原理和过程。通过HudiTableSource、StreamReadMonitoringFunction和StreamReadOperator的详细分析，阐述了如何监控元数据、获取增量分片以及读取数据文件。重点讨论了增量查询的关键——时间线Instant，并指出了在某些情况下，由于即时时间点归档可能导致无法消费数据的问题。

摘要由CSDN通过智能技术生成

1. 简介

hudi的两大特性：流式查询和支持upsert/delete，hudi的数据变更是基于timeline的，所以时间点(Instant)就成为了实现增量查询的依据。在与flink集成中，当开启了流式读，其实就是一个持续的增量查询的过程，可以通过配置参数read.start-commit和read.end-commit来指定一个无状态的flink job的初始查询范围。

flink 1.13.6
hudi 0.11.0
merge on read 表

2. 代码示例

tEnv.executeSql("CREATE  TABLE tb_person_hudi ( id BIGINT, age INT, name STRING,create_time TIMESTAMP ( 3 ), time_stamp TIMESTAMP(3),PRIMARY KEY ( id ) NOT ENFORCED ) WITH (\n" +