Spark Streaming原理总结

国科大学习生活(期末复习资料、课程大作业解析、大厂实习经验心得等): 文章专栏(点击跳转)
大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转)

1、什么是Spark Streaming?

1.1、 Spark Streaming概念

在这里插入图片描述

Spark Streaming 是个流式数据(准实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,便可以用于处理实时数据流。其本质是批处理,将流式数据抽象成一个一个的批次,当批次小到一定程度时(微批),便可视为处理实时数据流。

  • 准实时:区别于离线和实时,准实时介于二者之间。通常情况下,离线开发延迟一般以天、小时为单位,实时开发延迟在毫秒级别;而准实时则是秒或者分钟级别。
    在这里插入图片描述

1.2、DStream:离散化流

Discretized Stream是Spark Streaming的基础抽象(和Spark 基于RDD 的概念很相似)代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。

所以简单来讲,DStream就是对RDD在实时数据处理场景的一种封装。

在这里插入图片描述

此时,Spark计算框架处理流式数据也就转化成了对RDD的处理

在这里插入图片描述

2、Spark Streaming处理流式数据的过程

Apache Spark Streaming 是一个实时流处理框架,它在处理数据时会将数据分成一系列连续的批次,然后对这些批次进行处理。在 Spark Streaming 中,数据的接收、转换和输出是流处理的三个主要步骤

在这里插入图片描述

上图中展示了流式数据通过Spark Streaming计算框架转化成一系列(微批)数据,并通过Spark Core计算引擎计算后输出一系列处理过的数据。

在这里插入图片描述

由Spark Streaming架构图可以看出,流式数据最终还是使用Spark Context来做计算,也就是说底层还是对RDD(分布式弹性数据集)来做计算

流式数据WordCount demo:

package spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamWordCount {
  def main(args: Array[String]): Unit = {

    // 1. 初始化Spark配置信息
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")

    // 2. 初始化SparkStreamingContext 设置批次大小
    val ssc: StreamingContext = new StreamingContext(conf = conf, batchDuration = Seconds(3))

    // 3. 通过监控端口创建DStream,读进来的数据为一行行
    val lineStreams: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)

    // 将每一行数据做切分,形成一个个单词 并将单词映射成元组(word,1)
    val wordStream: DStream[(String, Int)] = lineStreams.flatMap(_.split(" ")).map((_, 1))

    // 做词频统计
    val wordCountStream: DStream[(String, Int)] = wordStream.reduceByKey(_ + _)

    // print
    wordCountStream.print()

    // start SparkStreamContext and waiting for termination
    ssc.start()
    ssc.awaitTermination()
  }
}

具体计算过程:

  • 数据接收:Spark Streaming 通过接收器(Receiver)从各种数据源(如 Kafka、Flume、Kinesis 或 TCP 套接字)接收实时数据流。接收器负责将数据从源头拉取到 Spark Streaming 应用程序中,并将其存储在 Spark 的内存中以供处理。
  • 数据处理:接收到的数据会被分成批次,每个批次被表示为一个弹性分布式数据集(RDD)。Spark Streaming 提供了丰富的转换(算子)操作(如 map、filter、reduceByKey 等),允许用户对数据进行复杂的转换和处理。
  • 数据输出:处理后的数据可以被推送到各种外部系统中,如文件系统、数据库或实时看板。输出操作负责将数据从 Spark Streaming 应用程序传输到外部系统。

3、 DStream转换

DStream 上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window相关的原语。

3.1、无状态转化操作

无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。

在这里插入图片描述

需要记住的是,尽管这些函数看起来像作用在整个流上一样,但事实上每个DStream在内部是由许多RDD(批次)组成,且无状态转化操作是分别应用到每个RDD上的
例如:reduceByKey()会归约每个时间区间中的数据,但不会归约不同区间之间的数据。

3.1.1 Transform
Transform 允许 DStream 上执行任意的RDD-to-RDD函数。即使这些函数并没有在DStream的API中暴露出来,通过该函数可以方便的扩展Spark API。该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。

3.1.2 join
两个流之间的join需要两个流的批次大小一致,这样才能做到同时触发计算。计算过程就是对当前批次的两个流中各自的RDD进行join,与两个RDD的join效果相同。

3.2、有状态转化操作

WindowOperations
Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。

  • ➢ 窗口时长:计算内容的时间范围;
  • ➢ 滑动步长:隔多久触发一次计算。

注意:这两者都必须为采集周期大小的整数倍。且进行有状态转化操作需要对检查点(checkpoint)目录进行配置,会使用检查点来保存状态。

WordCount示例:

package spark.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WindowOperations {
  // Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。
  // 所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。
  //    窗口时长:计算内容的时间范围;
  //    滑动步长:隔多久触发一次计算。 (这两者都必须为采集周期大小的整数倍)
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("WindowOperations")
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(3))
	// 必须设置检查点
    ssc.checkpoint("./ck")

    // Create a DStream that will connect to hostname:port, like localhost:9999
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)

    // Split each line into words
    val words: DStream[String] = lines.flatMap(_.split(" "))


    // Count each word in each batch
    val pairs: DStream[(String, Int)] = words.map(word => (word, 1))
    val wordCounts: DStream[(String, Int)] = pairs.reduceByKeyAndWindow(
      // 加上新进入窗口的批次中的元素
      (a, b) => a + b,
      // 移除离开窗口的老批次中的元素
      (a, b) => a - b,
      // 窗口时长
      Seconds(12),
      // 滑动步长
      Seconds(6)
    )

    // Print the first ten elements of each RDD generated in this DStream to the console
    wordCounts.print()

    // Start the computation and wait for termination
    ssc.start()

    ssc.awaitTermination()
  }
}

4、Spark Streaming适用于哪些场景?

目前而言Spark Streaming 主要支持以下三种业务场景:

  1. 无状态操作:只关注当前批次中的实时数据

    • 商机标题分类,分类http请求端 --> kafka --> Spark Streaming --> http请求端Map --> 响应结果。
    • 网库Nginx访问日志采集,flume --> kafka --> Spark Streaming --> hive/hdfs。
    • 数据同步,网库主站数据通过“主站” - > kafka – >Spark Streaming --> hive/hdfs。
  2. 有状态操作:对有状态的DStream进行操作时,需要依赖之前的数据 除了当前新生成的小批次数据,但还需要用到以前所生成的所有的历史数据。新生成的数据与历史数据合并成一份流水表的全量数据

    • 实时统计上线某活动的PV、UV。
    • 实时统计网库每个商品的总浏览量,交易量,交易额。
  3. 窗口操作:定时对指定时间段范围内的DStream数据进行操作

    • 网库主站的恶意访问、爬虫,每10分钟统计30分钟内访问次数最多的用户。

参考文献 + 项目地址

Spark Structured Streaming | Apache Spark

Spark Streaming详解----概述、基本概念、性能调优

Spark流式数据处理——Spark Streaming

本人项目地址:

BigDataDev: 大数据核心框架学习pro (gitee.com)

在这里插入图片描述

欢迎大家参考!


20点29分 2024年9月26日
Spark生态最后一员 —— Spark Streaming 内容学习整理,如有错误,欢迎评论区交流指出。
  不积跬步无以至千里!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蹒跚者_Stan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值