【Spark入门(4)】SparkStreaming基础

 【时间】2021.12.08

【题目】【Spark入门(4)】SparkStreaming基础

目录

一、引言

二、一些重点图

1、DStream抽象与计算示意图

2、SparkStream架构图

 三、思维导图


一、引言

本文是课程尚硅谷大数据Spark教程的SparkStream基础部分的思维导图。

SparkStream主要是通过DStream抽象来实现伪流式计算(微批次,准实时),主要内容包括:

  1. DStream抽象:离散化流(discretized stream),DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在。
  2. DStream的操作,底层是RDD,分为无状态操作(transform,保留当前采样区间的数据)和有状态操作(UpdateStateByKey、window)
  3. DStream创建:自定义数据源需要继承Receiver,并实现 onStart、onStop 方法
  4. DStream 输出:print()、saveAsXXX操作,需要触发输出操作,前面的原语操作才会执行,类似于RDD的惰性执行(需要触发执行算子才会开启计算)

视频链接:sparkStream基础

二、一些重点图

1、DStream抽象与计算示意图

 

对DStream的原语操作实际是对每一个RDD进行算子操作:

计算引擎:

2、SparkStream架构图

整体架构图:

 三、思维导图

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值