Spark Streaming原理总结

蹒跚者_Stan

已于 2024-09-27 15:35:33 修改

阅读量951

点赞数 36

分类专栏：大数据开发学习文档国科大学习生活文章标签： spark 大数据经验分享

于 2024-09-26 20:47:25 首次发布

本文链接：https://blog.csdn.net/The_skye/article/details/142576005

版权

国科大学习生活同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

大数据开发学习文档

13 篇文章 1 订阅

订阅专栏

国科大学习生活（期末复习资料、课程大作业解析、大厂实习经验心得等）: 文章专栏（点击跳转）
大数据开发学习文档（分布式文件系统的实现，大数据生态圈学习文档等）: 文章专栏（点击跳转）

Spark Streaming原理总结

1、什么是Spark Streaming？

1.1、 Spark Streaming概念

在这里插入图片描述

Spark Streaming 是个流式数据（准实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，便可以用于处理实时数据流。其本质是批处理，将流式数据抽象成一个一个的批次，当批次小到一定程度时（微批），便可视为处理实时数据流。

准实时：区别于离线和实时，准实时介于二者之间。通常情况下，离线开发延迟一般以天、小时为单位，实时开发延迟在毫秒级别；而准实时则是秒或者分钟级别。

1.2、DStream：离散化流

Discretized Stream是Spark Streaming的基础抽象（和Spark 基于RDD 的概念很相似）代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上，DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。

所以简单来讲，DStream就是对RDD在实时数据处理场景的一种封装。

在这里插入图片描述

此时，Spark计算框架处理流式数据也就转化成了对RDD的处理。

在这里插入图片描述

2、Spark Streaming处理流式数据的过程

Apache Spark Streaming 是一个实时流处理框架，它在处理数据时会将数据分成一系列连续的批次，然后对这些批次进行处理。在 Spark Streaming 中，数据的接收、转换和输出是流处理的三个主要步骤。

在这里插入图片描述

上图中展示了流式数据通过Spark Streaming计算框架转化成一系列（微批）数据，并通过Spark Core计算引擎计算后输出一系列处理过的数据。

在这里插入图片描述

由Spark Streaming架构图可以看出，流式数据最终还是使用Spark Context来做计算，也就是说底层还是对RDD（分布式弹性数据集）来做计算。

流式数据WordCount demo：

package spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamWordCount {
  def main(args: Array[String]): Unit = {

    // 1. 初始化Spark配置信息
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")

    // 2. 初始化SparkStreamingContext 设置批次大小
    val ssc: StreamingContext = new StreamingContext(conf = conf, batchDuration = Seconds(3))

    // 3. 通过监控端口创建DStream，读进来的数据为一行行
    val lineStreams: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)

    // 将每一行数据做切分，形成一个个单词 并将单词映射成元组（word,1）
    val wordStream: DStream[(String, Int)] = lineStreams.flatMap(_.split(" ")).map((_, 1))

    // 做词频统计
    val wordCountStream: DStream[(String, Int)] = wordStream.reduceByKey(_ + _)

    // print
    wordCountStream.print()

    // start SparkStreamContext and waiting for termination
    ssc.start()
    ssc.awaitTermination()
  }
}

具体计算过程：

数据接收：Spark Streaming 通过接收器（Receiver）从各种数据源（如 Kafka、Flume、Kinesis 或 TCP 套接字）接收实时数据流。接收器负责将数据从源头拉取到 Spark Streaming 应用程序中，并将其存储在 Spark 的内存中以供处理。
数据处理：接收到的数据会被分成批次，每个批次被表示为一个弹性分布式数据集（RDD）。Spark Streaming 提供了丰富的转换（算子）操作（如 map、filter、reduceByKey 等），允许用户对数据进行复杂的转换和处理。
数据输出：处理后的数据可以被推送到各种外部系统中，如文件系统、数据库或实时看板。输出操作负责将数据从 Spark Streaming 应用程序传输到外部系统。

3、 DStream转换

DStream 上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。

3.1、无状态转化操作

无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。

在这里插入图片描述

需要记住的是，尽管这些函数看起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD（批次）组成，且无状态转化操作是分别应用到每个RDD上的。
例如：reduceByKey()会归约每个时间区间中的数据，但不会归约不同区间之间的数据。

3.1.1 Transform
Transform 允许 DStream 上执行任意的RDD-to-RDD函数。即使这些函数并没有在DStream的API中暴露出来，通过该函数可以方便的扩展Spark API。该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。

3.1.2 join
两个流之间的join需要两个流的批次大小一致，这样才能做到同时触发计算。计算过程就是对当前批次的两个流中各自的RDD进行join，与两个RDD的join效果相同。

3.2、有状态转化操作

WindowOperations
Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。

➢ 窗口时长：计算内容的时间范围；
➢ 滑动步长：隔多久触发一次计算。

注意：这两者都必须为采集周期大小的整数倍。且进行有状态转化操作需要对检查点（checkpoint）目录进行配置，会使用检查点来保存状态。

WordCount示例：

package spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WindowOperations {
  // Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。
  // 所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。
  //    窗口时长：计算内容的时间范围；
  //    滑动步长：隔多久触发一次计算。 (这两者都必须为采集周期大小的整数倍)
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("WindowOperations")
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))
	// 必须设置检查点
    ssc.checkpoint("./ck")

    // Create a DStream that will connect to hostname:port, like localhost:9999
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)

    // Split each line into words
    val words: DStream[String] = lines.flatMap(_.split(" "))


    // Count each word in each batch
    val pairs: DStream[(String, Int)] = words.map(word => (word, 1))
    val wordCounts: DStream[(String, Int)] = pairs.reduceByKeyAndWindow(
      // 加上新进入窗口的批次中的元素
      (a, b) => a + b,
      // 移除离开窗口的老批次中的元素
      (a, b) => a - b,
      // 窗口时长
      Seconds(12),
      // 滑动步长
      Seconds(6)
    )

    // Print the first ten elements of each RDD generated in this DStream to the console
    wordCounts.print()

    // Start the computation and wait for termination
    ssc.start()

    ssc.awaitTermination()
  }
}

4、Spark Streaming适用于哪些场景？

目前而言Spark Streaming 主要支持以下三种业务场景：

无状态操作：只关注当前批次中的实时数据
- 商机标题分类，分类http请求端 --> kafka --> Spark Streaming --> http请求端Map --> 响应结果。
- 网库Nginx访问日志采集，flume --> kafka --> Spark Streaming --> hive/hdfs。
- 数据同步，网库主站数据通过“主站” - > kafka – >Spark Streaming --> hive/hdfs。
有状态操作：对有状态的DStream进行操作时,需要依赖之前的数据 除了当前新生成的小批次数据，但还需要用到以前所生成的所有的历史数据。新生成的数据与历史数据合并成一份流水表的全量数据
- 实时统计上线某活动的PV、UV。
- 实时统计网库每个商品的总浏览量，交易量，交易额。
窗口操作：定时对指定时间段范围内的DStream数据进行操作
- 网库主站的恶意访问、爬虫，每10分钟统计30分钟内访问次数最多的用户。