rdd的一系列转换操作,形成了DAG(有向无环图),子rdd对父rdd的引用形成了谱系,调用toDebugString() 方法来查看 RDD 的谱系
job task stage
http://litaotao.github.io/deep-into-spark-exection-model
https://www.cnblogs.com/wzj4858/p/8204411.html
http://litaotao.github.io/deep-into-spark-exection-model
Spark Core(二)Driver上的Task的生成、分配、调度
https://blog.csdn.net/raintungli/article/details/70168241
集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系
https://www.zhihu.com/question/33270495?sort=created
默认的task数量=默认的partition数量=core的核数
Spark的性能瓶颈
https://www.zhihu.com/question/28023548