开发Spark应用,需要将应用打成计算jar包,上传到Spark集群。
接下来通过/spark-submit xxx.jar
,初始化Driver Program。
Driver程序会进行一系列初始化操作,准备SparkContext对象(运行环境)。
请求分布式计算的资源管理器分配相应对应申请单位的计算资源,分布式资源管理器会分配空闲的计算节点,承担本次计算任务(反向注册)。
Driver程序分析DAG(有向无环图)施工图纸,挣个DAG实际上是由若干个Stage(阶段)构成,每一个Stage都是一个分布式计算的Task集合。
Driver程序依次将每一个Stage的Task集合提交到分布式计算集群,进行并计算。