Executor接收到了LaunchTask的请求(TaskRunner运行)
会做一些准备操作,比如说,反序列话Task(发送过来的时候是序列话的),然后通过网络拉取需要的文件,jar包等
然后运行我们task的run()方法
内部,最核心的就是调用RDD的iterator()方法,在这里,就会针对task所对应的rdd的partition执行我们的自定义的function(算子)
把那个partition的相关数据作为输入,输入到我们的函数中,然后进行处理,返回形成新的rdd的新的partition.
下一步:这里分俩种
一般的:
ShuffleMapTask(除了最后一个stage的task):计算完我们partition的数据之后,实际上会使用ShuffleManager的ShuffleWriter,将数据分区后写入对应的分区文件
所有操作完了之后,实际上会有一个MapStatus,然后发送给DAGScheduler(内部有MapOutPutTracker)
第二步:ResultTask,它主要就是针对shuffleMapTask的输出,来执行shuffle的操作,包含我们自定义的算子,可能回去MapOutPutTracker中拉取shufflemapTask的输出数据