Spark DStream之有状态操作实现WordCount

QYHuiiQ

于 2022-11-24 20:11:35 发布

阅读量351

点赞数

分类专栏：大数据之Spark 文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qyhuiiq/article/details/128025706

版权

大数据之Spark 专栏收录该内容

19 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何使用Spark DStream的有状态操作实现WordCount功能，通过实例展示了如何将每个采集周期的计算结果汇总，最终得到所有周期的总计。在运行程序后，观察到count值为所有周期数据的总和，并且在指定目录下保存了checkpoint数据。

摘要由CSDN通过智能技术生成

在之前的案例中，实现的DStream是通过每个采集周期内独立进行逻辑处理的，在某些业务场景中，可能是需要将每个周期内的计算结果进行汇总，这时就需要一种有状态的采集。

package test.wyh.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamingStateWordCount {

  def main(args: Array[String]): Unit = {
    //创建环境对象
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamingStateWordCount")
    //配置采集周期
    val context = new StreamingContext(sparkConf, Seconds(2))
    //配置检查点目录，就是记录状态的目录，该目录是不存在的，自动生成
    context.checkpoint("DStream_checkpoit")
    //监听端口，获取到的是行数据
    val lines = context.socketTextStream("localhost", 9000)
    //分词
    val words = lines