Spark学习笔记：Spark Streaming工作原理_sparkstreaming面试的工作原理-CSDN博客

Spark Streaming是一个流式数据处理（Stream Processing）的框架，要处理的数据就像流水一样源源不断的产生，就需要实时处理。在Spark Streaming中，对于Spark Core进行了API的封装和扩展，将流式的数据切分为小批次（batch，称之为微批，按照时间间隔切分）进行处理，可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
支持从很多种数据源中读取数据，使用算子来进行数据处理，处理后的数据可以被保存到文件系统、数据库等存储中

相关概念

DStream：离散流，相当于是一个数据的集合
StreamingContext：在创建StreamingContext的时候，会自动的创建SparkContext对象

对于电商来说，每时每刻都会产生数据（如订单，网页的浏览数据等），这些数据就需要实时的数据处理

将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果并展示

二、Spark Streaming处理数据的流程

1.数据源

大多情况从Kafka中获取数据，还可以从Flume中直接获取，还能从TCP Socket中获取数据（一般用于开发测试）

2.数据处理

主要通过DStream针对不同的业务需求使用不同的方法（算子）对数据进行相关操作，企业中最多的两种类型统计：实时累加统计（如统计某电商销售额）会用到DStream中的算子updateStateBykey、实时统计某段时间内的数据（如对趋势进行统计分析，实时查看最近20分钟内各个省份用户点击广告的流量统计）会用到reduceByKeyAndWindow这个算子。

3.存储结果

调用RDD中的API将数据进行存储，因为Spark Streaming是将数据分为微批处理的，所以每一批次就相当于一个RDD，可以把结果存储到Console（控制台打印，开发测试）、Redis（基于内存的分布式Key-Value数据库）、HBase（分布式列式数据库）、RDBMS（关系型数据库，如MySQL，通过JDBC）