学习致谢
:
https://www.bilibili.com/video/BV1Xz4y1m7cv?p=39
- Sparking Streaming在Spark中的位置
Spark Streaming是Spark生态系统当中一个重要的框架,它建立在Spark Core之上,下图也可以看出SparkingStreaming在Spark生态系统中地位。
- 官网中的介绍
-特点
-SparkStreaming数据处理流程
SparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,最后,可以将处理后的数据存储到HDFS、数据库和实时仪表板,具有高吞吐量和容错能力强等特点。
一般是Kafka—>SparkStreaming–>各种存储组件
Spark Streaming计算思想
SparkStreaming对流式数据的处理介于Batch批处理和RealTime实时处理之间,也就是微批处理
SparkStreaming微批处理的核心思想是:
将源源不断到来的数据,按照固定的时间间隔BatchInterval进行微批划分MicroBatch,然后对每个MicroBatch微批数据进行快速分析和处理,当时间间隔BatchInterval较小时(一般为秒级),就像是在做"实时"处理!
这种思想就有点类似于小时候玩的动画书
https://haokan.baidu.com/v?pd=wisenatural&vid=5906192384812778776