环境
- 本文使用的spark版本为2.4.8
spark运行流程
总体视图
- 上图来自spark官网,关于图上组件的详细说明请参见spark官网
分层视图
spark运行分资源请求和任务调度两条线,下图绿色线为资源请求线,而红色线为任务调度线。
- spark的计算层可以基于YARN、Apache Mesos、Kubernetes,也可以使用自身的standalone 模式,通过StandaloneAppClient实现与资源层的消息交互,通过DriverEndPoint实现与Executor的消息交互,具体如下:
- 资源请求时,资源的分配包括垂直分配和水平分配,为避免单台机器负载过大,默认采用水平分配模式
角色划分
资源层
- master——负责集群资源的管理
- worker——汇报资源情况、管理本节点的executor
计算层
- driver——负责向集群申请资源、job拆分、任务调度、执行结果收集
- executor——负责任务的执行以及执行情况的报告
RDD
RDD是spark中的核心概念,是不可变的、可进行并行计算的记录分区集。RDD主要包括如下属性:
- 分区集
- 作用于分区上的计算函数
- RDD依赖关系
- 分区函数(可选,默认hash分区)
- 首选计算位置(可选,根据计算向数据移动原则,使计算作用于合适节点上的数据,比如hdfs中block的位置)
RDD依赖关系
- NarrowDependency
- OneToOneDependency
- RangeDependency
- ShuffleDependency
Narrow依赖不涉及数据移动,而Shuffle依赖需要Shuffle写和Shuffle读,Shuffle依赖是DAG Scheduler进行stage拆分的依据。
RDD操作
RDD操作分为两类:
- transformations——从一个rdd生成新的rdd(一个dataset到新的dataset),比如filter、map
- actions——在数据集上进行计算,输出结果,比如foreach、count
任务调度
job、stage、task及关系
概念
- job——RDD上的每个actions类的操作都会生成一个job。
- stage——在每个job中,DAGScheduler以RDD上transformations类操作生成的ShuffeRDD(对应RDD依赖关系为shuffle依赖)为边界,划分stage,每个stage会生成中间结果,供后续stage使用。stage分为ShuffleMapStage和ResultStage,前者输出中间结果,后者输出最终结果。
- task——数据集的每个分区上的函数计算,对应ShuffleMapStage和ResultStage,最后会转换为对应的ShuffleMapTask和ResultTask集。
关系
一个job包括多个stage,一个stage包括多个task
DAGScheduler
DAGScheduler是顶级调度,面向stage,负责把job拆分为stage(依据就是RDD之间的shuffle依赖关系),根据分区情况,把stage转换成task集合,提交给TaskScheduler,然后跟踪每个stage的执行情况,下面以word count例子进行说明。
测试数据
hello world spark
good morning hawk
hello world hawk
hawk good morning
by by hawk
代码
object WorldCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
conf.setAppName("worldcount")
conf.setMaster("local")
val sc = new SparkContext(conf)
val wordfileRDD:RDD[String] = sc.textFile("data/wordcount.txt")
val flatMapRDD = wordfileRDD.flatMap(_.split(