Spark Streaming窗口函数

46 篇文章 3 订阅
41 篇文章 1 订阅

一.简介

Spark Streaming还提供了窗口计算,可以在数据的滑动窗口上应用转换。下图说明了此滑动窗口。
在这里插入图片描述
如该图所示,每当窗口滑动在源DStream,落入窗口内的源RDDS被组合及操作以产生RDDS的窗口DStream。在这种特定情况下,该操作将应用于数据的最后3个时间单位,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。

  1. 窗口长度 - 窗口的持续时间。
  2. 滑动间隔 -进行窗口操作的间隔。

这两个参数必须是源DStream的批处理间隔的倍数。

让我们用一个例子来说明窗口操作。每10秒计算最近30秒数据,生成一次字数统计。为此,我们必须在最近30秒数据上使用reduceByKey来对pairsDStream (word, 1)对应用该操作。这是通过操作完成的reduceByKeyAndWindow。

// Reduce last 30 seconds of data, every 10 seconds
// windowLength和slideInterval
val windowedWordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int) => (a + b), Seconds(30), Seconds(10))

二.常用窗口算子

在这里插入图片描述
翻译:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值