一、本质
Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理
二、Spark Streaming和Spark Core
2.1 逻辑关系:
2.2 物理关系:
1) DStream:Spark Streaming提供了表示连续数据流的、高度抽象的被称为离散流的DStream
2) 任何对DStream的操作都会转变为对底层RDD的操作。
2.3 算子关系:
1) Spark Streaming 算子分为Transformation和Output
2) Transformation包括Spark中的Transform和部分的Action(Reduce、Count等)
3) Output:
• saveAsObjectFile、saveAsTextFile、saveAsHadoopFiles:将一批数据输出到Hadoop文件系统中,用批量数据的开始时间戳来命名
• forEachRDD:允许用户对DStream的每一批量数据对应的RDD本身做任意操作