updateStateByKey 解释:
以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加
在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步:
1) 定义状态:可以是任意数据类型
2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。
以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加
在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步:
1) 定义状态:可以是任意数据类型
2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。
对于有状态操作,要不断的把当前和历史的时间切片的RDD累加计算,随着时间的流失,计算的数据规模会变得越来越大。
具体看代码
import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds /** * @author jhp * spark streaming 保持key的状态统计 */ object UpdateStateByKeyWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setMaster("local[2]") .setAppName("UpdateStateByKeyWordCount") val ssc = new StreamingContext(conf, Seconds(5)) ssc.checkpoint("hdfs://spark1:9000/wordcount_checkpoint") val lines = ssc.socketTextStream("spark1", 9999) val words = lines.flatMap { _.split(" ") } val pairs = words.map { word => (word, 1) } //前一次的key的数量和后一次key的数量的统计 val wordCounts = pairs.updateStateByKey((values: Seq[Int], state: Option[Int]) => { var newValue = state.getOrElse(0) for(value <- values) { newValue += value } Option(newValue) }) wordCounts.print() ssc.start() ssc.awaitTermination() } }