Flink
文章平均质量分 91
Aaa~茹
一个不学习的小家伙
展开
-
flinkCDC
在 Flink 1.11 引入了 CDC 机制,CDC 的全称是 Change Data Capture,核心思想是:监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费,是目前非常成熟的同步数据库变更方案。原创 2024-04-06 21:01:08 · 590 阅读 · 2 评论 -
Flink Sql 的查询
WITH提供了一种编写辅助语句的方法,以便在较大的查询中使用。这些语句通常被称为公共表表达式(Common Table Expression, CTE),可以认为它们定义了仅为一个查询而存在的临时视图。用作根据 key 进行数据去重对于流查询,计算查询结果所需的状态可能无限增长。状态大小取决于不同行数。可以设置适当的状态生存时间(TTL)的查询配置,以防止状态过大。但是,这可能会影响查询结果的正确性。如某个 key 的数据过期从状态中删除了,那么下次再来这么一个 key,由于在状态中找不到,就又会输出一遍。原创 2024-04-02 20:19:04 · 1186 阅读 · 1 评论 -
Flink SQL
Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用Table API或者SQL来实现;这两种API对于一张表执行相同的查询操作,得到的结果是完全一样的。我们主要还是以流处理应用为例进行讲解。原创 2024-04-01 17:00:24 · 2144 阅读 · 0 评论 -
flink水位线
周期性水位线生成器(Periodic Generator)周期性生成器一般是通过onEvent()观察判断输入的事件,而在onPeriodicEmit()里发出水位线。// 自定义水位线的产生env.print();@Override@Override// 告诉程序数据源里的时间戳是哪一个字段@Override// 延迟时间// 观察到的最大时间戳@Override// 每来一条数据就调用一次// 更新最大时间戳@Override。原创 2024-03-29 17:07:08 · 1055 阅读 · 1 评论 -
Flink中的时间和窗口
在批处理统计中,我们可以等一批数据都到齐后统一处理。但是在实时处理统计中,我们是来一条数据处理一条数据,那么我们怎么统计最近一段时间内的数据呢?引入“窗口”。所谓的“窗口”,一般就是划定的一段时间范围,也就是“时间窗对在这个范围内的数据进行处理,就是所谓的窗口计算。所以窗口和时间往往是不分开的。接下来我们就深入了解一下Flink中得到时间语义和窗口的应用。原创 2024-03-31 11:59:37 · 2124 阅读 · 0 评论