通过案例对SparkStreaming透彻理解三板之二

7 篇文章 0 订阅
6 篇文章 0 订阅

1.解密Spark Streaming运行机制

2.解密Spark Streaming架构

I.Spark Core是基于RDD形成的,RDD之间都会有依赖关系,Spark StreamingRDD上的时间维度,DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板,随着时间的流逝不断地实例化DStream,以数据进行填充DStream Graph,静态的RDD DAG模板,这个模板就是DStream Graph,

II.基于DStream 的依赖构造成DStream GraphRDD DAG的模板

DstreamRDD的模板,随着DStream的依赖关系构成Dstream Graph

III.DStream是逻辑级别,RDD是物理级别

@transient
private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] ()

Dstrem就是在RDD的基础上加上了时间的维度所以整个SparkStreaming就是时空维度

DStreamcompute需要传入一个时间参数,通过时间获取相应的RDD,然后再对RDD进行计算

 

 

/** Method that generates a RDD for the given time */

def compute(validTime: Time): Option[RDD[T]]

我们查看SparkStreaming的运行日志,就可以看出和RDD的运行几乎是一致的:

 

动态的job控制器会根据我们设定的时间间隔收集到数据,让静态的Dstream Graph活起来变成RDDGraph

如果数据处理不过来,就可以限流,Spark Streaming在运行的过程中可以动态地调整自己的资源,CPU


备注:

1、DT大数据梦工厂微信公众号DT_Spark 
2、IMF晚8点大数据实战YY直播频道号:68917580
3、新浪微博: http://www.weibo.com/ilovepains



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值