Flink intervalJoin 使用 -转载

最新推荐文章于 2024-04-19 17:36:01 发布

黄瓜炖啤酒鸭

最新推荐文章于 2024-04-19 17:36:01 发布

阅读量1.9k

点赞数 1

分类专栏： Flink 优化 Flink 文章标签：订单流join

本文链接：https://blog.csdn.net/qq_31866793/article/details/103452687

版权

本文详细介绍了Flink的Interval Join机制，用于处理数据乱序和延时情况下的流数据join。通过代码示例展示了如何基于KeyedStream进行interval join，并通过ProcessJoinFunction解析过程。内容包括Interval Join的时间类型要求、状态管理和数据清理逻辑。

摘要由CSDN通过智能技术生成

1.前言

Flink中基于DataStream的join，只能实现在同一个窗口的两个数据流进行join，但是在实际中常常会存在数据乱序或者延时的情况，导致两个流的数据进度不一致，就会出现数据跨窗口的情况，那么数据就无法在同一个窗口内join。
Flink基于KeyedStream提供的interval join机制，intervaljoin 连接两个keyedStream, 按照相同的key在一个相对数据时间的时间段内进行连接。

2.代码示例

将订单流与订单品流通过订单id进行关联，获得订单流中的会员id。
其中ds1就是订单品流，ds2就是订单流，分别对ds1和ds2通过订单id进行keyBy操作，得到两个KeyedStream，再进行intervalJoin操作；
between方法传递的两个参数lowerBound和upperBound，用来控制右边的流可以与哪个时间范围内的左边的流进行关联，即：
leftElement.timestamp + lowerBound <= rightElement.timestamp <= leftElement.timestamp + upperBound
相当于左边的流可以晚到lowerBound（lowerBound为负的话）时间，也可以早到upperBound（upperBound为正的话）时间。

DataStream<OrderItemBean> ds = ds1.keyBy(jo -> jo.getString("fk_tgou_order_id"))
                .intervalJoin(ds2.keyBy(jo -> jo.getString("id")))
                .between(Time.milliseconds(-5), Time.milliseconds(5))
                .process(new ProcessJoinFunction<JSONObject, JSONObject, OrderItemBean>() {

                    @Override
                    public void processElement(JSONObject joItem, JSONObject joOrder, Context context, Collector<OrderItemBean> collector) throws Exception {
                        String order_id = joItem.getString("fk_tgou_order_id");
                        String item_id = joItem.getString("activity_to_product_id");
                        String create_time = df.format(joItem.getLong("create_time"));
                        String member_id = joOrder.getString("fk_member_id");
                        Double price = joItem.getDouble("price");
                        Integer quantity = joItem.getInteger("quantity");
                        collector.collect(new OrderItemBean(order_id, item_id, create_time, member_id, price, quantity));
                    }
                });
ds.map(JSON::toJSONString).addSink(new FlinkKafkaProducer010<String>("berkeley-order-item", schema, produceConfig));

3.Interval Join源码

<1> 使用Interval Join时，必须要指定的时间类型为EventTime