SPark学习笔记：14 Spark Stream的Window操作

最新推荐文章于 2024-07-16 20:32:10 发布

wangzhongyudie

最新推荐文章于 2024-07-16 20:32:10 发布

阅读量488

点赞数

分类专栏： Spark 大数据文章标签： spark 学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangzhongyudie/article/details/126736855

版权

大数据同时被 2 个专栏收录

47 篇文章 2 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

文章目录

Spark Dstream的window概述
Window API操作

Spark Dstream的window概述

Spark DStream提供了Window操作，我们可以使用Window算子对数据进行一系列的算子运算。和Flink不同，Spark DStream提供的window操作比较简单。只能基于数据的处理时间来进行运算。Spark的窗口可以分为滚动窗口和滑动窗口两类。

滚动窗口

滚动窗口.png

由上图可知，滚动窗口有如下几个特点：

窗口的大小是固定大小的时间间隔
窗口与窗口之间无交集。
窗口每次滑动的步长等于窗口的大小

滑动窗口

滑动窗口.png

窗口的大小是固定大小的时间间隔
窗口与窗口之间有交集。
窗口每次滑动的步长小于窗口的大小

如果窗口的滑动步长大于窗口的大小，那么就有可能会丢失部分数据。

Tips:Spark的窗口大小必须是batch时间的整数倍，窗口的滑动步长也必须是batch时间的整数倍，因为Spark Streaming严格意义来说并不是真正的实时流处理框架(来一条处理一条)，数据处理的最小单元是一个批次处理一次。所以，如果窗口的大小或者滑动步长如果不是batch时间的整数倍，那么batch就存在被拆分成多个份的情况

Window API操作

window(windowLength,slideInterval)

说明： 基于一个DStream的数据创建一个窗口操作。
- windowLength：是窗口的大小
- slideInterval：是滑动步长

windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍

countByWindow(windowLength, slideInterval)

说明： 统计滑动窗口的元素的个数作。
- windowLength：是窗口的大小
- slideInterval：是滑动步长

windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍

reduceByWindow(func, windowLength, slideInterval)

说明： 创建一个窗口，对窗口中的每一个元素做reduce运算，返回一个只有单个元素的Stream。
- func reduce函数
- windowLength：是窗口的大小
- slideInterval：是滑动步长

windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍

reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])

说明： 对（K，V）类型的DStream创建一个窗口，对窗口以Key进行分组，对组中的每一个元素做reduce运算，返回一个(K,V)类型的DStream。
- func reduce函数
- windowLength：是窗口的大小
- slideInterval：是滑动步长

windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍

countByValueAndWindow(windowLength, slideInterval, [numTasks])

说明： 对（K，V）类型的DStream创建一个窗口，对窗口中的元素按照Key进行分组，对组中的每一个元素进行统计V的个数，返回一个(K,Long)类型的DStream。
- windowLength：是窗口的大小
- slideInterval：是滑动步长

windowsLength和slideInterval必须是设置的数据流的batch时间的整数倍

Tips：以上所有的windows的算子都是“懒执行”的算子。

package com.hjt.yxh.hw.dstream

import com.hjt.yxh.hw.bean.SensorReading
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.{SparkConf, SparkContext}

object WindowTestApp {
  def main(args: Array[String]): Unit = {

    val sparkConf :SparkConf = new SparkConf()
    sparkConf.setMaster("local[*]").setAppName("DStreamTestApp")
    val ssc:StreamingContext = new StreamingContext(sparkConf,Seconds(3))

    import StreamingContext._

    val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
    val sensorDs:DStream[(String,SensorReading)] = line
      .filter(_.nonEmpty)
      .map(data=>{
        val arr = data.split(",")
        (arr(0),SensorReading(arr(0),arr(1).toLong,arr(2).toDouble))
      })

    //滚动窗口，窗口的大小是9秒,统计每个窗口中温度最大的传感器的时间
    val maxDStream:DStream[(String,SensorReading)] = sensorDs.window(Seconds(9)).reduceByKey((first, second) => {
      if (first.temperature > second.temperature) {
        first
      } else {
        second
      }
    })

    //输出到console
    maxDStream.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPark学习笔记：14 Spark Stream的Window操作

Spark DStream提供了Window操作，我们可以使用Window算子对数据进行一系列的算子运算。和Flink不同，Spark DStream提供的window操作比较简单。只能基于数据的处理时间来进行运算。Spark的窗口可以分为滚动窗口和滑动窗口两类。滚动窗口窗口的大小是固定大小的时间间隔窗口与窗口之间无交集。窗口每次滑动的步长等于窗口的大小滑动窗口窗口的大小是固定大小的时间间隔窗口与窗口之间有交集。窗口每次滑动的步长小于窗口的大小。
复制链接

扫一扫

专栏目录

wangzhongyudie CSDN认证博客专家 CSDN认证企业博客

码龄13年

61: 原创

1万+: 周排名

173万+: 总排名

7万+: 访问

: 等级

708: 积分

6626: 粉丝

28: 获赞

10: 评论

187: 收藏

私信

关注

热门文章

分类专栏

最新评论

FLink学习笔记：12-Flink 的Table API的常用操作
我叫李英杰怎么了: Schema schema = Schema.newBuilder() .column("id", DataTypes.STRING()) .column("price", DataTypes.DOUBLE()) .column("stockName", DataTypes.STRING()) .column("timestamp",DataTypes.BIGINT().notNull()) .columnByExpression("eventtime","CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))") // .watermark("eventtime", "eventtime - INTERVAL '2' SECOND") // .primaryKey("id") .build(); 传入 timestamp时间为1631002964777，但是转换出来都是null，为什么，求大神解答
Azkaban4.0.0编译和部署
hongdounuoyan: 可以，但是安装过程中还会有很多错误，要一步步解决，编译时候报错，要用 ./gradlew build installDist -x test
JNA实战系列：JNA与C语言中的数据类型映射以及复杂结构体传参示例
wangzhongyudie: 通过ByReference的方式实现
JNA实战系列：JNA与C语言中的数据类型映射以及复杂结构体传参示例
望着大河弯弯: 请问一下，结构体A中有一个变长结构体b，Java怎么定义传值啊
Hive学习笔记：05Hive中常用分析函数使用解析
智慧地球（AI·Earth）社区: 博主文章质量很高，，凤⭐尘必须给三连支持了。我正在参加CSDN创作者的申请，欢迎大佬给个关注三连哇！这是我的博客链接：https://blog.csdn.net/qq_36396104?type=blog 大佬你也可以留下你的链接，我给你三连！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。