spark中生成stage的过程中,是如何得知某个rdd的缓存情况。
经过查看源代码得知,在DagScheduler中,存在一个名为cacheLocs的变量,存储了每个RDD分区的缓存位置,定义如下: //org.apache.spark.scheduler.DAGScheduler /**
* Contains the locations that each RDD's partitions are cached on. This map's keys
原创
2016-08-18 10:58:45 ·
1225 阅读 ·
0 评论