task深度剖析

Executor接收到了LaunchTask的请求(TaskRunner运行)

会做一些准备操作,比如说,反序列话Task(发送过来的时候是序列话的),然后通过网络拉取需要的文件,jar包等

 

然后运行我们task的run()方法

 

内部,最核心的就是调用RDD的iterator()方法,在这里,就会针对task所对应的rdd的partition执行我们的自定义的function(算子)

把那个partition的相关数据作为输入,输入到我们的函数中,然后进行处理,返回形成新的rdd的新的partition.

 

下一步:这里分俩种

一般的:

ShuffleMapTask(除了最后一个stage的task):计算完我们partition的数据之后,实际上会使用ShuffleManager的ShuffleWriter,将数据分区后写入对应的分区文件

所有操作完了之后,实际上会有一个MapStatus,然后发送给DAGScheduler(内部有MapOutPutTracker)

 

第二步:ResultTask,它主要就是针对shuffleMapTask的输出,来执行shuffle的操作,包含我们自定义的算子,可能回去MapOutPutTracker中拉取shufflemapTask的输出数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值