SparkStreaming从入门到放弃（二）

最新推荐文章于 2024-10-01 18:52:18 发布

humanity11

最新推荐文章于 2024-10-01 18:52:18 发布

阅读量125

点赞数

分类专栏： SparkStreaming 文章标签： spark sparkStreaming

本文链接：https://blog.csdn.net/humanity11/article/details/98110356

版权

SparkStreaming 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本节主要针对Dstream 静态模板的讲解。回顾RDD，rdd是一个只读的数据集，因此不难知道，dstream也是一个数据集，也有transfermation和output。在dstreaming中，transfermation有map\filter\join\reduce等，output有print\save\foreachRDD等。

看上节的例子：

ssc.socketTextStream("localhost", 9999).flatMap(_.split(“ ”)).map(word=>(word,1)).reduceBykey(_+_).print();

上面的调用方式为：

我们知道在实际运行job时是从后向前回溯的，RDD 的计算是被触发了以后才进行 lazy 求值的，即当真正求 d 的值的时候，先计算上游 dependency c；而计算 c 则先进一步计算 c 的上游 dependency a 和 b。Spark Streaming 里则与 RDD DAG 的反向表示保持了一致，对 DStream 也采用的反向表示。D.print() 将 new 一个 d 的一个下游 ForEachDStream x —— x 中记明了需要做的操作 func = print() ,然后在每个 batch 动态生成 RDD 实例时，以 x 为根节点、进行一次 BFS（宽度优先遍历）

总结：

Spark Streaming 记录整个 DStream DAG 的方式，就是通过一个 DStreamGraph 实例记录了到所有的 output stream 节点的引用
- 通过对所有 output stream 节点进行遍历，就可以得到所有上游依赖的 DStream
- 不能被遍历到的 DStream 节点 —— 如 g 和 h —— 则虽然出现在了逻辑的 DAG 中，但是并不属于物理的 DStreamGraph，也将在 Spark Streaming 的实际运行过程中不产生任何作用
DStreamGraph 实例同时也记录了到所有 input stream 节点的引用
- DStreamGraph 时常需要遍历没有上游依赖的 DStream 节点 —— 称为 input stream —— 记录一下就可以避免每次为查找 input stream 而对 output steam 进行 BFS 的消耗