一、Regular Join
常规连接(Regular Join)是SQL中原生定义的Join方式,是最通用的一类连接操作。它的具体语法与标准SQL完全相同,通过关键字JOIN来连接两个表,后面用关键字ON来指明条件。
Flink SQL的Regular Join也可以分为Inner Join 和 Outer Join,区别在于结果中是否包含不符合联结条件的行。Regular Join 包含以下几种(以 L 作为左流中的数据标识, R 作为右流中的数据标识):
- Inner Join:在流任务中,只有当两条流成功连接时才会输出结果,格式为 +[L, R]。
- Left Join:在流任务中,当左流数据到达时,无论是否与右流数据成功连接,均会输出结果。如果连接成功,输出格式为 +[L, R];如果连接失败,则输出 +[L, null]。若后续右流数据到达并与之前未连接的左流数据匹配成功,则会先发起一次回撤操作,输出 -[L, null],随后输出新的连接结果 +[L, R]。
- Right Join:与 Left Join 相似,但左右流的角色互换,即右流数据到达时,无论是否与左流数据成功连接,均会输出结果。
- Full Join:在流任务中,无论左流或右流的数据到达,都会尝试输出结果。对于未成功连接的情况,如果是右流数据,则输出 +[null, R];如果是左流数据,则输出 +[L, null]。若后续另一条流的数据到达并与之前未连接的数据匹配成功,则会先进行一次回撤操作 (对于左流数据到达,回撤 -[null, R];对于右流数据到达,回撤 -[L, null]),随后输出新的连接结果 +[L, R]。
二、案例
接下来不玩虚的,直接上case,我司有一张评论表 `comment`,其中包含一级回复、二级回复数据,先要求计算每篇物料(动态、帖子)中状态正常的一级回复量、二级回复量,并将结果插入Redis中,表结构如下&