![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
FlinkSQL
文章平均质量分 77
ambitfly
这个作者很懒,什么都没留下…
展开
-
FlinkSQL聚合查询
在创建表的 DDL(CREATE TABLE 语句)中,可以增加一个字段,通过 WATERMARK语句来定义事件时间属性。WATERMARK 语句主要用来定义水位线(watermark)的生成表达式,这个表达式会将带有事件时间戳的字段标记为事件时间属性,并在它基础上给出水位线的延迟时间。 这里我们把 ts 字段定义为事件时间属性,而且基于 ts 设置了 5 秒的水位线延迟。原创 2023-04-22 23:43:35 · 1026 阅读 · 0 评论 -
FlinkSQL基本概念、时间属性和窗口
在创建表的 DDL(CREATE TABLE 语句)中,可以增加一个字段,通过 WATERMARK语句来定义事件时间属性。WATERMARK 语句主要用来定义水位线(watermark)的生成表达式,这个表达式会将带有事件时间戳的字段标记为事件时间属性,并在它基础上给出水位线的延迟时间。 这里我们把 ts 字段定义为事件时间属性,而且基于 ts 设置了 5 秒的水位线延迟。原创 2023-04-17 00:09:29 · 1371 阅读 · 0 评论 -
基于 Flink SQL 构建流批一体的 ETL 数据集成
数据仓库是一个集成的(Integrated),面向主题的(Subject Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990 年提出的数据仓库概念。该概念里最重要的一点就是“集成的”,其余特性都是一些方法论的东西。因为数据仓库首先要解决的问题,就是数据集成,就是将多个分散的、异构的数据源整合在一起,消除数据孤岛,便于后续的分析。转载 2023-03-21 09:40:34 · 586 阅读 · 0 评论 -
MySQL FlinkCDC 通过Kafka实时同步到ClickHouse(自定义Debezium格式支持增加删除修改)
把MySQL多库多表的数据通过FlinkCDC DataStream的方式实时同步到同一个Kafka的Topic中,然后下游再写Flink SQL拆分把数据写入到ClickHouse,FlinkCDC DataStream通过自定义Debezium格式的序列化器,除了增加,还能进行删除修改。关于Debezium格式的更多信息,参考Flink官网,网址如下。MySQL FlinkCDC 通过Kafka实时同步到ClickHouse(自定义Debezium格式支持增加删除修改)自定义Debezium序列化器。原创 2023-02-13 22:43:05 · 1942 阅读 · 0 评论 -
SQLServer Flink CDC 开启
SQLServer Flink CDC原创 2022-12-22 16:34:24 · 435 阅读 · 0 评论 -
mongo实时导入到clickhouse案例(包含复杂嵌套json的解析)
本案例是把Mongo数据库的数据通过FlinkCDC实时导入到Kafka,消费Kafka数据把维表数据写入到MySQL。读取MySQL维表数据和消费Kafka的数据通过Flink SQL Join后导入到ClickHouse。(三) 数据准备test01表 json数据user表 json数据使用db.test01.insertOne(json数据) 插入到mongo数据库即可github地址https://github.com/ambitfly/flink-cdc-connectors/blob/原创 2022-12-11 19:18:04 · 1461 阅读 · 0 评论