4 Spark Streaming_sparkstreaming的基本步骤包括哪些-CSDN博客

本文链接：https://blog.csdn.net/qq_45972323/article/details/145400460

4 Spark Streaming

一级目录
1. 整体流程
2. 数据抽象
3. DStream 相关操作
4. Spark Streaming 完成实时需求

一级目录

Spark Streaming 是一个基于 Spark Core 之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。
在这里插入图片描述

Spark Streaming 的特点：
1.易用
可以像编写离线批处理一样去编写流式程序，支持 java/scala/python 语言。
2.容错
SparkStreaming 在没有额外代码和配置的情况下可以恢复丢失的工作。
3.易整合到 Spark 体系
流式处理与批处理和交互式查询相结合。

1. 整体流程

Spark Streaming 中，会有一个接收器组件 Receiver，作为一个长期运行的 task 跑在一个 Executor 上。Receiver 接收外部的数据流形成 input DStream。
DStream 会被按照时间间隔划分成一批一批的 RDD，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。时间间隔的大小可以由参数指定，一般设在 500 毫秒到几秒之间。
对 DStream 进行操作就是对 RDD 进行操作，计算处理的结果可以传给外部系统。
Spark Streaming 的工作流程像下面的图所示一样，接受到实时数据后，给数据分批次，然后传给 Spark Engine 处理最后生成该批次的结果。

2. 数据抽象

Spark Streaming 的基础抽象是 DStream(Discretized Stream，离散化数据流，连续不断的数据流)，代表持续性的数据流和经过各种 Spark 算子操作后的结果数据流。
可以从以下多个角度深入理解 DStream：
1.DStream 本质上就是一系列时间上连续的 RDD
在这里插入图片描述
2.对 DStream 的数据的进行操作也是按照 RDD 为单位来进行的

3.容错性，底层 RDD 之间存在依赖关系，DStream 直接也有依赖关系，RDD 具有容错性，那么 DStream 也具有容错性
4.准实时性/近实时性
Spark Streaming 将流式计算分解成多个 Spark Job，对于每一时间段数据的处理都会经过 Spark DAG 图分解以及 Spark 的任务集的调度过程。
对于目前版本的 Spark Streaming 而言，其最小的 Batch Size 的选取在 0.5~5 秒钟之间。
所以 Spark Streaming 能够满足流式准实时计算场景，对实时性要求非常高的如高频实时交易场景则不太适合。
-总结
简单来说 DStream 就是对 RDD 的封装，你对 DStream 进行操作，就是对 RDD 进行操作。
对于 DataFrame/DataSet/DStream 来说本质上都可以理解成 RDD。