FLink中 处理时间和事件时间的滚动窗口

滚动窗口 (Tumbling Windows)

滚动窗口原理

  • 滚动窗口分配器将每个元素分配到一个指定窗口大小的窗口中
  • 滚动窗口有一个固定的大小,并且窗口不会出现重叠,即数据也不会重复

滚动窗口特点

  • 时间对齐
  • 窗口长度固定
  • 没有重叠
    滚动窗口场景
  • 适合做BI统计等,(做每个时间段 / 计算内的聚合计算 )
  • 每个时间段 / 计算呢你的Top-N
    滚动窗口图示如下:
    在这里插入图片描述

处理时间滚动窗口案例

package 复习
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector
/*
数据类型
2022-11-21 beijing 1
 */
object Processing_Tumbling {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val ds = env.socketTextStream("localhost", 6666)
      .map(x => {
        val fields: Array[String] = x.split(" ")
        val date = fields(0).trim
        val province = fields(1)
        val add = fields(2).trim.toInt
        (date + "_" + province, add)
      }).keyBy(x=>x._1)
//      时间窗口为10秒
//      .window(TumblingProcessingTimeWindows.of(Time.seconds(10)))
      .window(TumblingProcessingTimeWindows.of(Time.minutes(1),Time.seconds(10)))
//      输入类型,key类型,输出类型,窗口类型
      .process(new ProcessWindowFunction[(String,Int),String,String,TimeWindow] {
        override def process(key: String, context: Context, elements: Iterable[(String, Int)], out: Collector[String]): Unit = {
          val start: Long = context.window.getStart // 获取窗口的开始时间
          val end: Long = context.window.getEnd // 获取窗口的结束时间
          out.collect(s"""窗口的开始时间:$start,窗口的结束时间:$end,窗口的数据条数:${elements.size}""".stripMargin)

        }
      })
      .print()

    env.execute("test03")

  }

}

事件时间滚动窗口案例

注意 这里的 作用是将数据中的时间戳作为实际发生的数据时间戳,满足事件时间的要求

.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[(String, Long)](Time.seconds(5)) {
      override def extractTimestamp(t: (String, Long)): Long = t._2
    })
package 复习
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector
/*
数据源
2022-2-12 beijing 1648806746000
 */
object Event_Tumbling {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)   // 注意:一定设置并行度,否则需要大量数据才能看到效果
    val ds = env.socketTextStream("localhost", 6666)
      .map(x => {
        val fields: Array[String] = x.split(" ")
        val date = fields(0).trim
        val province = fields(1)
        val ts = fields(2).trim.toLong
        (date + "_" + province, ts)
      })
      // 设置超时,从数据流中提取事件时间返回   为了测试事件时间窗口,后续还会说
//      todo 这里的超时 个人理解为是当数据没有发送出去里面会包含在这个时间段所有的数据,也是延迟
      .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[(String, Long)](Time.seconds(5)) {
      override def extractTimestamp(t: (String, Long)): Long = t._2
    })
      .keyBy(x => x._1)
      .window(TumblingEventTimeWindows.of(Time.seconds(5)))
      .process(new ProcessWindowFunction[(String, Long), String, String, TimeWindow] {
        override def process(key: String, context: Context, elements: Iterable[(String, Long)], out: Collector[String]): Unit = {
          val start: Long = context.window.getStart // 获取窗口的开始时间
          val end: Long = context.window.getEnd // 获取窗口的结束时间
          out.collect(s"""窗口的开始时间:$start,窗口的结束时间:$end,窗口的数据条数:${elements.size}""".stripMargin)
        }
      })
      .print()


    env.execute("test04")
  }

}

事件时间延迟的结果

个人理解 :
延迟的作用是将这段时间窗口延迟多长时间,如果这段窗口还没有触发,在窗口之外,延迟之内的时间戳也会算进去

在这里插入图片描述

  • 15
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值