一、workflow sequence
比如如下的一段代码在spark中的具体执行过程:
这段代码将会在生成两个具体的jobs:
- read the parquet file
- performs the action to collection the computations to send to the driver.
job2 有两个stages, 因为存在shuffle(grouping data by country)
首先,应用(application)创建Job, 在stage中将任务分解为task,每个task的宽度表明这个task的执行时间。
在进入下一个stage,必须等所有的task对应partition都执行完成之后方可开始。