文章目录
Spark Dstream的window概述
Spark DStream提供了Window操作,我们可以使用Window算子对数据进行一系列的算子运算。和Flink不同,Spark DStream提供的window操作比较简单。只能基于数据的处理时间来进行运算。Spark的窗口可以分为滚动窗口和滑动窗口两类。
- 滚动窗口
由上图可知,滚动窗口有如下几个特点:
- 窗口的大小是固定大小的时间间隔
- 窗口与窗口之间无交集。
- 窗口每次滑动的步长等于窗口的大小
- 滑动窗口
- 窗口的大小是固定大小的时间间隔
- 窗口与窗口之间有交集。
- 窗口每次滑动的步长小于窗口的大小
如果窗口的滑动步长大于窗口的大小,那么就有可能会丢失部分数据。
Tips:Spark的窗口大小必须是batch时间的整数倍,窗口的滑动步长也必须是batch时间的整数倍,因为Spark Streaming严格意义来说并不是真正的实时流处理框架(来一条处理一条),数据处理的最小单元是一个批次处理一次。所以,如果窗口的大小或者滑动步长如果不是batch时间的整数倍,那么batch就存在被拆分成多个份的情况
Window API操作
window(windowLength,slideInterval)
- 说明: 基于一个DStream的数据创建一个窗口操作。
- windowLength:是窗口的大小
- slideInterval: 是滑动步长
windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍
countByWindow(windowLength, slideInterval)
- 说明: 统计滑动窗口的元素的个数作。
- windowLength:是窗口的大小
- slideInterval: 是滑动步长
windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍
reduceByWindow(func, windowLength, slideInterval)
- 说明: 创建一个窗口,对窗口中的每一个元素做reduce运算,返回一个只有单个元素的Stream。
- func reduce函数
- windowLength:是窗口的大小
- slideInterval: 是滑动步长
windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍
reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])
- 说明: 对(K,V)类型的DStream创建一个窗口,对窗口以Key进行分组,对组中的每一个元素做reduce运算,返回一个(K,V)类型的DStream。
- func reduce函数
- windowLength:是窗口的大小
- slideInterval: 是滑动步长
windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍
countByValueAndWindow(windowLength, slideInterval, [numTasks])
- 说明: 对(K,V)类型的DStream创建一个窗口,对窗口中的元素按照Key进行分组,对组中的每一个元素进行统计V的个数,返回一个(K,Long)类型的DStream。
- windowLength:是窗口的大小
- slideInterval: 是滑动步长
windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍
Tips:以上所有的windows的算子都是“懒执行”的算子。
package com.hjt.yxh.hw.dstream
import com.hjt.yxh.hw.bean.SensorReading
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.{SparkConf, SparkContext}
object WindowTestApp {
def main(args: Array[String]): Unit = {
val sparkConf :SparkConf = new SparkConf()
sparkConf.setMaster("local[*]").setAppName("DStreamTestApp")
val ssc:StreamingContext = new StreamingContext(sparkConf,Seconds(3))
import StreamingContext._
val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
val sensorDs:DStream[(String,SensorReading)] = line
.filter(_.nonEmpty)
.map(data=>{
val arr = data.split(",")
(arr(0),SensorReading(arr(0),arr(1).toLong,arr(2).toDouble))
})
//滚动窗口,窗口的大小是9秒,统计每个窗口中温度最大的传感器的时间
val maxDStream:DStream[(String,SensorReading)] = sensorDs.window(Seconds(9)).reduceByKey((first, second) => {
if (first.temperature > second.temperature) {
first
} else {
second
}
})
//输出到console
maxDStream.print()
ssc.start()
ssc.awaitTermination()
}
}