【时间】2021.12.08
【题目】【Spark入门(4)】SparkStreaming基础
目录
一、引言
本文是课程尚硅谷大数据Spark教程的SparkStream基础部分的思维导图。
SparkStream主要是通过DStream抽象来实现伪流式计算(微批次,准实时),主要内容包括:
- DStream抽象:离散化流(discretized stream),DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在。
- DStream的操作,底层是RDD,分为无状态操作(transform,保留当前采样区间的数据)和有状态操作(UpdateStateByKey、window)
- DStream创建:自定义数据源需要继承Receiver,并实现 onStart、onStop 方法
- DStream 输出:print()、saveAsXXX操作,需要触发输出操作,前面的原语操作才会执行,类似于RDD的惰性执行(需要触发执行算子才会开启计算)
视频链接:sparkStream基础
二、一些重点图
1、DStream抽象与计算示意图
对DStream的原语操作实际是对每一个RDD进行算子操作:
计算引擎:
2、SparkStream架构图
整体架构图: