Spark Streaming实时流处理项目实战(九)Spark Streaming进阶

Spark Streaming进阶

带状态的算子

updateStateByKey算子的使用

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * Created by llp on 2021/4/27.
 */


object StatefulWordCount2 {

  def main(args: Array[String]): Unit = {
    
    // 1.创建StreamingContext
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("WordCount")
    val ssc = new StreamingContext(sparkConf,Seconds(5))
    
    // 2.创建checkpoint
    // 如果要使用updateStateByKey算子,就必须设置一个checkpoint目录,开启checkpoint机制
    // 这样的话才能把每个key对应的state除了在内存中有,那么是不是也要checkpoint一份
    // 因为你要长期保存一份key的state的话,那么spark streaming是要求必须用checkpoint的,以便于在
    // 内存数据丢失的时候,可以从checkpoint中恢复数据
    // 开启checkpoint机制,很简单,只要调用jssc的checkpoint()方法,设置一个hdfs目录即可
    // https://blog.csdn.net/erfucun/article/details/52278729
    ssc.checkpoint("/opt/data")

    // 实现WordCount逻辑
    val lines = ssc.socketTextStream("hadoop2", 9999)
    //val lines = ssc.textFileStream("/opt/data")
    
    val result = lines.flatMap(_.split(" ")).map((_,1)).updateStateByKey((values:Seq[Int],state:Option[Int])=>{
      //更新函数两个参数Seq[V], Option[S],前者是每个key新增的值的集合,后者是当前保存的状态,
      //创建一个变量,用于记录单词出现次数
      var newValue=state.getOrElse(0) //getOrElse相当于if....else.....
      for(value <- values){
        newValue +=value //将单词出现次数累计相加
      }
      Option(newValue)
    })
    result.print()

    ssc.start()
    ssc.awaitTermination()
  }

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

怒上王者

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值