FlinkSQL Regular Join之 Left Join

一、Regular Join

        常规连接(Regular Join)是SQL中原生定义的Join方式,是最通用的一类连接操作。它的具体语法与标准SQL完全相同,通过关键字JOIN来连接两个表,后面用关键字ON来指明条件。

      Flink SQL的Regular Join也可以分为Inner Join 和 Outer Join,区别在于结果中是否包含不符合联结条件的行。Regular Join 包含以下几种(以 L 作为左流中的数据标识, R 作为右流中的数据标识):

  1. Inner Join:在流任务中,只有当两条流成功连接时才会输出结果,格式为 +[L, R]。
  2. Left Join:在流任务中,当左流数据到达时,无论是否与右流数据成功连接,均会输出结果。如果连接成功,输出格式为 +[L, R];如果连接失败,则输出 +[L, null]。若后续右流数据到达并与之前未连接的左流数据匹配成功,则会先发起一次回撤操作,输出 -[L, null],随后输出新的连接结果 +[L, R]。
  3. Right Join:与 Left Join 相似,但左右流的角色互换,即右流数据到达时,无论是否与左流数据成功连接,均会输出结果。
  4. Full Join:在流任务中,无论左流或右流的数据到达,都会尝试输出结果。对于未成功连接的情况,如果是右流数据,则输出 +[null, R];如果是左流数据,则输出 +[L, null]。若后续另一条流的数据到达并与之前未连接的数据匹配成功,则会先进行一次回撤操作 (对于左流数据到达,回撤 -[null, R];对于右流数据到达,回撤 -[L, null]),随后输出新的连接结果 +[L, R]。

二、案例

        接下来不玩虚的,直接上case,我司有一张评论表 `comment`,其中包含一级回复、二级回复数据,先要求计算每篇物料(动态、帖子)中状态正常的一级回复量、二级回复量,并将结果插入Redis中,表结构如下&

### Flink 中支持的 Join 类型 Flink 是一种分布式流处理框架,提供了多种类型的 Join 来满足不同的应用场景需求。以下是 Flink 支持的主要 Join 类型以及其使用方法: #### 1. **Time-windowed Join** Time-windowed Join 基于时间窗口进行数据关联,适用于流式场景下的实时计算。这种 Join 要求两路输入流中的记录必须在指定的时间范围内才能被匹配成功[^1]。 - **特点**: - 数据关联需满足特定的时间范围约束。 - 支持 Inner JoinLeft Join、Right Join 和 Full Join。 - 时间属性条件通常用于过滤不符合时间窗口的数据。 - **SQL 示例**: ```sql SELECT a.key, b.value FROM stream_a AS a JOIN stream_b AS b ON a.id = b.id AND a.event_time BETWEEN b.start_time AND b.end_time; ``` --- #### 2. **Temporal Join (基于事件时间)** Temporal Join 主要针对具有时间维度的历史数据和当前流数据之间的关联操作。它利用 `ROWTIME` 或者其他时间字段来定义历史上下文,并将其与实时流结合在一起[^2]。 - **特点**: - 需要在一张表上声明为 Temporal Table Function。 - 使用事件时间语义,确保精确的一致性和低延迟。 - **SQL 示例**: ```sql CREATE TABLE historical_data ( id BIGINT, value STRING, proctime AS PROCTIME() ) WITH (...); SELECT t.id, h.value FROM current_stream AS t LEFT JOIN historical_data FOR SYSTEM_TIME AS OF t.proctime AS h ON t.id = h.id; ``` --- #### 3. **Regular Join** Regular Join 的行为类似于传统关系数据库中的静态表 Join 操作,也可以应用于批模式或流模式下。它可以简单地将两个流按照给定的键值条件进行连接[^3]。 - **特点**: - 不依赖任何时间特性。 - 只能处理有限大小的状态,默认会缓存整个流的内容到内存中(可能引发性能问题)。 - **SQL 示例**: ```sql SELECT a.name, b.salary FROM employees AS a JOIN departments AS b ON a.department_id = b.id; ``` --- #### 4. **Window Join 和 Interval Join** 这两种 Join 属于更高级别的分类,在实际应用中有显著区别[^4]: - **Window Join**: - 将两路流划分为固定长度的小批次(即窗口),然后在此基础上执行标准的 Join 操作。 - 窗口可以是滚动窗口或者滑动窗口形式。 - **Interval Join**: - 定义了一个相对偏移量作为边界条件,允许在一个动态变化的时间区间内完成 Join 处理。 - 更灵活但也更加复杂。 - **SQL 示例**: 对于 Window Join: ```sql SELECT COUNT(*) FROM tableA a JOIN tableB b ON a.user_id = b.user_id AND TUMBLE(a.time_column, INTERVAL '5' MINUTE) = TUMBLE(b.time_column, INTERVAL '5' MINUTE); ``` 而对于 Interval Join,则如下所示: ```sql SELECT * FROM orders o JOIN shipments s ON o.orderId = s.orderId AND o.shipmentTimestamp BETWEEN s.receiveTimestamp - INTERVAL '10' MINUTE AND s.receiveTimestamp + INTERVAL '10' MINUTE; ``` --- ### 总结 上述四种主要 Join 方式各有侧重领域,开发者应依据具体业务逻辑选择合适的方案实施开发工作。每种类型都有相应的语法结构可供调用,同时需要注意资源消耗情况以优化整体架构设计。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值