SparkStreaming算子 作用整理

1. foreachRDD

一种转换算子
foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素

官网解析:

最常用的输出操作

需要一个函数作为参数,函数作用于DStream中的每一个RDD

函数将RDD中的数据输出到外部系统,如文件、数据库

函数在driver上执行

函数中通常要有action算子,因为foreachRDD本身是transform算子
foreachRDD  算子注意:
 1.foreachRDD是DStream中output operator类算子
 2.foreachRDD可以遍历得到DStream中的RDD,可以在这个算子内对RDD使用RDD的Transformation类算子进行转化,但是一定要使用rdd的Action类算子触发执行。
 3.foreachRDD可以得到DStream中的RDD,在这个算子内,RDD算子外执行的代码是在Driver端执行的,RDD算子内的代码是在Executor中执行。

2. transform

一种转换算子
应用在DStream上,可以用于执行任意的RDD到RDD的转换操作。他可以用于实现,DStream API中所没有提供的操作。

3. updateStateByKey

一种转换算子

  • updateStateByKey作用:
  1. 为SparkStreaming中每一个Key维护一份state状态,state类型可以是任意类型的,可以是一个自定义的对象,更新函数也可以是自定义的。
  2. 通过更新函数对该key的状态不断更新,对于每个新的batch而言,SparkStreaming会在使用updateStateByKey的时候为已经存在的key进行state的状态更新。
    • 使用到updateStateByKey要开启checkpoint机制和功能。
    • 多久会将内存中的数据写入到磁盘一份?
      如果batchInterval设置的时间小于10秒,那么10秒写入磁盘一份。如果batchInterval设置的时间大于10秒,那么就会batchInterval时间间隔写入磁盘一份。

一般用来 统计广告点击流量,统计这一天的车流量,统计点击量

4. 窗口操作

  • 官网窗口操作理解图:
    在这里插入图片描述
    假设每隔5s 1个batch,上图中窗口长度为15s,窗口滑动间隔10s。
  • 窗口长度和滑动间隔必须是batchInterval(批次间隔)的整数倍。如果不是整数倍会检测报错。
  • 优化后的window窗口操作示意图:
    在这里插入图片描述
  • 优化后的window操作要保存状态所以要设置checkpoint路径,没有优化的window操作可以不设置checkpoint路径。

窗口函数:reduceByKeyAndWindow
例如:每隔2秒,统计前3秒内每个单词出现的次数

reduceByKeyAndWindow(_+_,Seconds(3),Seconds(2))

,每隔2秒(后面的2秒),统计前3秒的数据(前面的3秒),但是这个时候会有一个问题,当windowLength>slideInterval的时候,从官网图中可以看到time3会被计算2次,也就是说两个统计的部分会有重复,那么这个怎么解决呢?不用急,我们可以reduceByKeyAndWindow的另一个重载方法

reduceByKeyAndWindow(_+_,_-_,Seconds(3),Seconds(2))

这个方法的意思,我们可以不用重新获取或计算,而是通过获取旧信息来更新新的信息,这样既节省了空间又节省了内容,并且效率也大幅提升.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值