Spark
周英俊520
这个作者很懒,什么都没留下…
展开
-
Spark Stage划分和Task提交源码清晰总结版(看不懂请举报作者)
Spark的Action算子会触发job的执行,job执行流程中的数据依赖关系是以Stage为单位的,同一Job里的Stage可以并行,但是一般如果有依赖则是串行。所有Action算子都会执行SparkContext的RunJob-》DagScheduler的Runjob->DagScheduler的submitJob()接下来进行源码分析 SubmitJob方法 def submit...原创 2019-08-02 23:31:23 · 408 阅读 · 2 评论 -
sparksql的sql实现原理
SQL语句首先通过Parser模块被解析为语法树,此棵树称为Unresolved Logical Plan;Unresolved Logical Plan通过Analyzer模块借助于Catalog中的表信息解析为Logical Plan;此时,Optimizer再通过各种基于规则的优化策略进行深入优化,得到Optimized Logical Plan;优化后的逻辑执行计划依然是逻辑的,并不能被S...转载 2019-08-18 20:43:31 · 227 阅读 · 0 评论