Spark RDD源码阅读01

RDD是什么:Resilient Distributed Dataset




一、RDD的特征属性

      

  

1、partitions

      

 

2、compute

      

 

3、dependencies

      

 

 

二、RDD的执行Job的流程

RDD:  这些方法是判断这个Job结束的标志,然后开始执行Job。

      

 

 SparkContext:

       

 

       

 

       

 

       

 

DAGScheduler:

1、

       

 2、

       

 3、

       

 4、

       

 5、

       

 6、

       

 7、

       

 8、

       

 9、

       

 10、

       

 11、1号表示获取当前shuffledDep.rdd的依赖的shuffleRdd,2号表示对所依赖的shuffleRdd划分stage。由此看出是通过shuffleRdd来划分stage的。

       

 12、

       

 13、

       

 14、这个newShuffleMapStage 是去得到依赖的stage,从这可看出跟9号图一样的方法来获取父stage。进行了DAG图依赖的得到所有的stage。

       

 15、回到8号图,执行以下的方法后,

       

 16、从7号图的listenerBus的post提交的事件。

       

 

       

三、基本方法

      cache() 和 persist() 一致。

      

 

 

 

       

 

 

 

 

 

 

      



转载于:https://www.cnblogs.com/flex-lin/p/6819317.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值