参考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams
1.概念
(1)DStreams是一个连续的数据流,可以通过两种方式产生:数据源来的输入数据流,或者处理后的数据源的数据。
(2)DStreams是一系列的RDD构成的。其中RDD包含了每个interval间隔的数据。(如下图)
2.特点
(1)每个作用在DStream的操作,都会作用在其中所有的RDDs。例如,每个作用在DStreams的flatMap操作,都会作用在其中的每个RDD上。(图下图)
(2)DStream中的RDDs是使用Spark engine进行运算的。