sparkStreaming流式处理，接受socket数据，实现单词统计并且每个批次数据结果累加

最新推荐文章于 2023-01-06 19:26:47 发布

慢慢活成讨厌的样子

最新推荐文章于 2023-01-06 19:26:47 发布

阅读量216

点赞数

本文链接：https://blog.csdn.net/qq_41458071/article/details/106481458

版权

object SparkStreamingTCPTotal {

//newValues 表示当前批次汇总成的(word,1)中相同单词的所有的1
//runningCount 历史的所有相同key的value总和
//newValues:新过来的值
//runningCount:之前保存的状态值
def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
val newCount =runningCount.getOrElse(0)+newValues.sum
Some(newCount)
}

def main(args: Array[String]): Unit = {

//配置sparkConf参数
val sparkConf = new SparkConf().setAppName("SparkStreamingTCPTotal").setMaster("local[2]")
//构建sparkContext对象
val sc = new SparkContext(sparkConf)

sc.setLogLevel("WARN")
//构建StreamingContext对象，每个批处理的时间间隔
val scc = new StreamingContext(sc, Seconds(5))

// scc.checkpoint("./")
//注册一个监听的IP地址和端口用来收集数据
val lines = scc.socketTextStream("hadoop-senior.test.com", 9999)
//切分每一行记录
val words = lines.flatMap(_.split(" "))
//每个单词记为1
val wordAndOne = words.map((_, 1))
//累计统计单词出现的次数
val result = wordAndOne.updateStateByKey(updateFunction)
result.print()
scc.start()
scc.awaitTermination()
}
}

慢慢活成讨厌的样子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkStreaming流式处理，接受socket数据，实现单词统计并且每个批次数据结果累加

object SparkStreamingTCPTotal { //newValues 表示当前批次汇总成的(word,1)中相同单词的所有的1 //runningCount 历史的所有相同key的value总和 //newValues:新过来的值 //runningCount:之前保存的状态值 def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = { val newC...
复制链接

扫一扫