SparkStreaming从入门到放弃(二)

本节主要针对Dstream 静态模板的讲解。回顾RDD,rdd是一个只读的数据集,因此不难知道,dstream也是一个数据集,也有transfermation和output。在dstreaming中,transfermation有map\filter\join\reduce等,output有print\save\foreachRDD等。

看上节的例子:

ssc.socketTextStream("localhost", 9999).flatMap(_.split(“ ”)).map(word=>(word,1)).reduceBykey(_+_).print();

上面的调用方式为:

我们知道在实际运行job时是从后向前回溯的,RDD 的计算是被触发了以后才进行 lazy 求值的,即当真正求 d 的值的时候,先计算上游 dependency c;而计算 c 则先进一步计算 c 的上游 dependency a  bSpark Streaming 里则与 RDD DAG 的反向表示保持了一致,对 DStream 也采用的反向表示。D.print()  new 一个 d 的一个下游 ForEachDStream x —— x 中记明了需要做的操作 func = print() ,然后在每个 batch 动态生成 RDD 实例时,以 x 为根节点、进行一次 BFS(宽度优先遍历

 

总结:

  • Spark Streaming 记录整个 DStream DAG 的方式,就是通过一个 DStreamGraph 实例记录了到所有的 output stream 节点的引用
    • 通过对所有 output stream 节点进行遍历,就可以得到所有上游依赖的 DStream
    • 不能被遍历到的 DStream 节点 —— 如 g 和 h —— 则虽然出现在了逻辑的 DAG 中,但是并不属于物理的 DStreamGraph,也将在 Spark Streaming 的实际运行过程中不产生任何作用
  •  DStreamGraph 实例同时也记录了到所有 input stream 节点的引用
    • DStreamGraph 时常需要遍历没有上游依赖的 DStream 节点 —— 称为 input stream —— 记录一下就可以避免每次为查找 input stream 而对 output steam 进行 BFS 的消耗
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值