Flink intervalJoin 使用与原理分析

最新推荐文章于 2023-08-09 10:23:20 发布

pucheung

最新推荐文章于 2023-08-09 10:23:20 发布

阅读量8.1k

点赞数 1

分类专栏： Flink

本文链接：https://blog.csdn.net/u013516966/article/details/102952239

版权

点击蓝字

关注~~

在上一篇的分析【Flink DataStream中CoGroup实现原理与三种 join 实现】中基于DataStream的join只能实现在同一个窗口的两个数据流之间进行join, 但是在实际中常常是会存在数据乱序或者延时的情况，导致两个流的数据进度不一致，就会出现数据跨窗口的情况，那么数据就无法在同一个窗口内join。flink 基于KeyedStream提供了一种interval join 机制，intervaljoin 连接两个keyedStream, 按照相同的key在一个相对数据时间的时间段内进行连接。

先看一个假设的案例：用户购买商品过程中填写收货地址然后下单，在这个过程中产生两个数据流，一个是订单数据流包含用户id、商品id、订单时间、订单金额、收货id等，另一个是收货信息数据流包含收货id、收货人、收货人联系方式、收货人地址等，系统在处理过程中，先发送订单数据，在之后的1到5秒内会发送收货数据，现在要求实时统计按照不同区域维度的订单金额的top100地区。在这个案例中两个数据流：订单流orderStream先，收货信息流addressStream后，需要将这两个数据流按照收货id join之后计算top100订单金额的地区，由于orderStream比addressStream早1到5秒，那么就有这样一个关系：
orderStream.time+1<=addressStream.time<=orderStream.time+5 或者是
addressStream.time-5<=orderStream.time<=addressStream.time-1
看下join 部分代码实现：


   
   
   
    
    case class Order(orderId:String, userId:String, gdsId:String, amount:Double, addrId:String

最低0.47元/天解锁文章

pucheung

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
6
评论
Flink intervalJoin 使用与原理分析

点击蓝字关注~~先看一个假设的案例：用户购买商品过程中填写收货地址然后下单，在这个过程中产生两个数据流，一个是订单数据流包含用户id、商品id、订单时间、订单金额、收货id等，另一个是收货信息数据流包含收货id、收货人、收货人联系方式、收货人地址等，系统在处理过程中，先发送订单数据，在之后的1到5秒内会发送收货数据，现在要求实时统计按照不同区域维度的订单金额的top100地区。在这个案例中两个数据...
复制链接

扫一扫

专栏目录