Window API

概述:

窗口分配器——window()方法

我们可以用.window()来定义一个窗口,然后基于这个window去做一些聚合或者其他处理操作。注意window()方法必须在keyBy之后才能使用

Flink提供了更加简单的.timeWindow().countWindow()方法,用于定义时间窗口和计数窗口。

DataStream<Tuple2<String,Double>> minTempPerWindowStream = 
  datastream
  .map(new MyMapper())
  .keyBy(data -> data.f0)
  .timeWindow(Time.seconds(15))
  .minBy(1);

窗口分配器(Window assigner)

  • window()方法接收的输入参数是一个WindowAssigner

  • WindowAssigner负责将每条输入的数据分发到正确的window中

  • Flink提供了通用的WindowAssigner

    • 滚动窗口(tumbling window)

    • 滑动窗口(sliding window)

    • 会话窗口(session window)

    • 全局窗口(global window)

创建不同类型的窗口

  • 滚动时间窗口(tumbling time window)

    .timeWindow(Time.seconds(15))

  • 滑动时间窗口(sliding time window)

    .timeWindow(Time.seconds(15),Time.seconds(5))

  • 会话窗口(session window)

    .window(EventTimeSessionWindows.withGap(Time.minutes(10)))

  • 滚动计数窗口(tumbling count window)

    .countWindow(5)

  • 滑动计数窗口(sliding count window)

    .countWindow(10,2)

DataStream的windowAll()类似分区的global操作,这个操作是non-parallel的(并行度强行为1),所有的数据都会被传递到同一个算子operator上,官方建议如果非必要就不要用这个API

TimeWindow

TimeWindow将指定时间范围内的所有数据组成一个window,一次对一个window里面的所有数据进行计算

滚动窗口:

Flink默认的时间窗口根据ProcessingTime进行窗口的划分,将Flink获取到的数据根据进入Flink的时间划分到不同的窗口中

DataStream<Tuple2<String, Double>> minTempPerWindowStream = dataStream 
  .map(new MapFunction<SensorReading, Tuple2<String, Double>>() { 
    @Override 
    public Tuple2<String, Double> map(SensorReading value) throws Exception {
      return new Tuple2<>(value.getId(), value.getTemperature()); 
    } 
  }) 
  .keyBy(data -> data.f0) 
  .timeWindow( Time.seconds(15) ) 
  .minBy(1);

时间间隔可以通过Time.milliseconds(x)Time.seconds(x)Time.minutes(x)等其中的一个来指定

滑动窗口

滑动窗口和滚动窗口的函数名是完全一致的,只是在传参数时需要传入两个参数,一个是window_size,一个是sliding_size。下面代码中的sliding_size设置为了5s,也就是说,每5s就计算输出结果一次,每一次计算的window范围是15s内的所有元素。

DataStream<SensorReading> minTempPerWindowStream = dataStream 
  .keyBy(SensorReading::getId) 
  .timeWindow( Time.seconds(15), Time.seconds(5) ) 
  .minBy("temperature");

window Function

window function 定义了要对窗口中收集的数据做的计算操作,主要可以分为两类:

  • 增量聚合函数(incremental aggregation functions)
  • 全窗口函数(full window functions)

增量聚合函数

  • 每条数据到来就进行计算,保持一个简单的状态。(来一条处理一条,但是不输出,到窗口临界位置才输出)
  • 典型的增量聚合函数有ReduceFunction, AggregateFunction。

全窗口函数

  • 先把窗口所有数据收集起来,等到计算的时候会遍历所有数据。(来一个放一个,窗口临界位置才遍历且计算、输出)
  • ProcessWindowFunction,WindowFunction。

其他可选API

Flink-Window概述 | Window类型 | TimeWindow、CountWindow、SessionWindow、WindowFunction

  • .trigger() ——触发器

    定义window 什么时候关闭,触发计算并输出结果

  • .evitor() ——移除器

    定义移除某些数据的逻辑

  • .allowedLateness() ——允许处理迟到的数据

  • .sideOutputLateData() ——将迟到的数据放入侧输出流

  • .getSideOutput() ——获取侧输出流

在这里插入图片描述

 代码测试:

测试滚动时间窗口的增量聚合函数

增量聚合函数,特点即每次数据过来都处理,但是到了窗口临界才输出结果

  • 编写java代码

package apitest.window;

import apitest.beans.SensorReading;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;

/**
 * @author : Ashiamd email: ashiamd@foxmail.com
 * @date : 2021/2/1 7:14 PM
 */
public class WindowTest1_TimeWindow {
  public static void main(String[] args) throws Exception {

    // 创建执行环境
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    // 并行度设置1,方便看结果
    env.setParallelism(1);

    //        // 从文件读取数据
    //        DataStream<String> dataStream = env.readTextFile("/tmp/Flink_Tutorial/src/main/resources/sensor.txt");

    // 从socket文本流获取数据
    DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

    // 转换成SensorReading类型
    DataStream<SensorReading> dataStream = inputStream.map(line -> {
      String[] fields = line.split(",");
      return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
    });

    // 开窗测试

    // 1. 增量聚合函数 (这里简单统计每个key组里传感器信息的总数)
    DataStream<Integer> resultStream = dataStream.keyBy("id")
      //                .countWindow(10, 2);
      //                .window(EventTimeSessionWindows.withGap(Time.minutes(1)));
      //                .window(TumblingProcessingTimeWindows.of(Time.seconds(15)))
      //                .timeWindow(Time.seconds(15)) // 已经不建议使用@Deprecated
      .window(TumblingProcessingTimeWindows.of(Time.seconds(15)))
      .aggregate(new AggregateFunction<SensorReading, Integer, Integer>() {

        // 新建的累加器
        @Override
        public Integer createAccumulator() {
          return 0;
        }

        // 每个数据在上次的基础上累加
        @Override
        public Integer add(SensorReading value, Integer accumulator) {
          return accumulator + 1;
        }

        // 返回结果值
        @Override
        public Integer getResult(Integer accumulator) {
          return accumulator;
        }

        // 分区合并结果(TimeWindow一般用不到,SessionWindow可能需要考虑合并)
        @Override
        public Integer merge(Integer a, Integer b) {
          return a + b;
        }
      });

    resultStream.print("result");

    env.execute();
  }
}

测试滚动时间窗口的全窗口函数

全窗口函数,特点即数据过来先不处理,等到窗口临界再遍历、计算、输出结果。

  • 编写java测试代码

    package apitest.window;
    
    import apitest.beans.SensorReading;
    import org.apache.commons.collections.IteratorUtils;
    import org.apache.flink.api.common.functions.AggregateFunction;
    import org.apache.flink.api.java.tuple.Tuple;
    import org.apache.flink.api.java.tuple.Tuple3;
    import org.apache.flink.streaming.api.datastream.DataStream;
    import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
    import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
    import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
    import org.apache.flink.streaming.api.windowing.time.Time;
    import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
    import org.apache.flink.util.Collector;
    
    /**
     * @author : Ashiamd email: ashiamd@foxmail.com
     * @date : 2021/2/1 7:14 PM
     */
    public class WindowTest1_TimeWindow {
        public static void main(String[] args) throws Exception {
    
            // 创建执行环境
            StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    
            // 并行度设置1,方便看结果
            env.setParallelism(1);
    
    //        // 从文件读取数据
    //        DataStream<String> dataStream = env.readTextFile("/tmp/Flink_Tutorial/src/main/resources/sensor.txt");
    
            // 从socket文本流获取数据
            DataStream<String> inputStream = env.socketTextStream("localhost", 7777);
    
            // 转换成SensorReading类型
            DataStream<SensorReading> dataStream = inputStream.map(line -> {
                String[] fields = line.split(",");
                return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
            });
    
            // 2. 全窗口函数 (WindowFunction和ProcessWindowFunction,后者更全面)
            SingleOutputStreamOperator<Tuple3<String, Long, Integer>> resultStream2 = dataStream.keyBy(SensorReading::getId)
                    .window(TumblingProcessingTimeWindows.of(Time.seconds(15)))
    //                .process(new ProcessWindowFunction<SensorReading, Object, Tuple, TimeWindow>() {
    //                })
                    .apply(new WindowFunction<SensorReading, Tuple3<String, Long, Integer>, String, TimeWindow>() {
                        @Override
                        public void apply(String s, TimeWindow window, Iterable<SensorReading> input, Collector<Tuple3<String, Long, Integer>> out) throws Exception {
                            String id = s;
                            long windowEnd = window.getEnd();
                            int count = IteratorUtils.toList(input.iterator()).size();
                            out.collect(new Tuple3<>(id, windowEnd, count));
                        }
                    });
    
            resultStream2.print("result2");
    
            env.execute();
        }
    }

    测试滑动计数窗口的增量聚合函数

    滑动窗口,当窗口不足设置的大小时,会先按照步长输出。

    eg:窗口大小10,步长2,那么前5次输出时,窗口内的元素个数分别是(2,4,6,8,10),再往后就是10个为一个窗口了。

  • 编写java代码:

    这里获取每个窗口里的温度平均值

package apitest.window;

import apitest.beans.SensorReading;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * @author : Ashiamd email: ashiamd@foxmail.com
 * @date : 2021/2/1 11:03 PM
 */
public class WindowTest2_CountWindow {
  public static void main(String[] args) throws Exception {

    // 创建执行环境
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    // 并行度设置1,方便看结果
    env.setParallelism(1);

    // 从socket文本流获取数据
    DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

    // 转换成SensorReading类型
    DataStream<SensorReading> dataStream = inputStream.map(line -> {
      String[] fields = line.split(",");
      return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
    });

    DataStream<Double> resultStream = dataStream.keyBy(SensorReading::getId)
      .countWindow(10, 2)
      .aggregate(new MyAvgFunc());

    resultStream.print("result");

    env.execute();
  }

  public static class MyAvgFunc implements AggregateFunction<SensorReading, Tuple2<Double, Integer>, Double> {

    @Override
    public Tuple2<Double, Integer> createAccumulator() {
      return new Tuple2<>(0.0, 0);
    }

    @Override
    public Tuple2<Double, Integer> add(SensorReading value, Tuple2<Double, Integer> accumulator) {
      // 温度累加求和,当前统计的温度个数+1
      return new Tuple2<>(accumulator.f0 + value.getTemperature(), accumulator.f1 + 1);
    }

    @Override
    public Double getResult(Tuple2<Double, Integer> accumulator) {
      return accumulator.f0 / accumulator.f1;
    }

    @Override
    public Tuple2<Double, Integer> merge(Tuple2<Double, Integer> a, Tuple2<Double, Integer> b) {
      return new Tuple2<>(a.f0 + b.f0, a.f1 + b.f1);
    }
  }
}
  1. 其他可选API代码片段

    // 3. 其他可选API
    OutputTag<SensorReading> outputTag = new OutputTag<SensorReading>("late") {
    };
    
    SingleOutputStreamOperator<SensorReading> sumStream = dataStream.keyBy("id")
      .timeWindow(Time.seconds(15))
      //                .trigger() // 触发器,一般不使用 
      //                .evictor() // 移除器,一般不使用
      .allowedLateness(Time.minutes(1)) // 允许1分钟内的迟到数据<=比如数据产生时间在窗口范围内,但是要处理的时候已经超过窗口时间了
      .sideOutputLateData(outputTag) // 侧输出流,迟到超过1分钟的数据,收集于此
      .sum("temperature"); // 侧输出流 对 温度信息 求和。
    
    // 之后可以再用别的程序,把侧输出流的信息和前面窗口的信息聚合。(可以把侧输出流理解为用来批处理来补救处理超时数据)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值