Spark RDD计算过程

最新推荐文章于 2022-09-05 18:02:44 发布

tanliqing2010

最新推荐文章于 2022-09-05 18:02:44 发布

阅读量574

点赞数

分类专栏： spark 大数据 tanliqing的大数据之家

本文链接：https://blog.csdn.net/tanliqing2010/article/details/80375305

版权

tanliqing的大数据之家同时被 3 个专栏收录

14 篇文章 0 订阅

订阅专栏

大数据

10 篇文章 0 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    Driver给Executor发送消息,包括taskset数据
Executor接收到对应的消息 
 
  executor反序列化数据成任务描述
executor通过LaunchTask来执行Task
executor中的launchTask方法中,把task封装成TaskRunner,并在executor线程池中获取一个线程执行
上面获取一下线程执行时,最终会调用TaskRunner对象中的run方法
run: 
 
    给driver发送自己正在运行的状态
反序列化task
task.run执行——>调用task.runTask(),这是一个抽象方法
ShuffleMapTask.runTask 
 
    反序列化RDD和依赖关系
rdd.iterator()——->rdd.compute()
compute最终是调用我们自己定义的计算函数
从shuffleManager获取shuffleWrite,把当前的Task计算结果写入到具体的文件中,顺便把mapStatus发送给Driver的DAGSchedule的MapOutputTrack
ResultTask.runTask 
 
    从Driver的DAGSchedule的MapOutputTrack出获取上一个Task结果
反序列化
调用我们自己的函数执行

                

tanliqing2010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD计算过程

Driver给Executor发送消息,包括taskset数据Executor接收到对应的消息 executor反序列化数据成任务描述executor通过LaunchTask来执行Taskexecutor中的launchTask方法中,把task封装成TaskRunner,并在executor线程池中获取一个线程执行上面获取一下线程执行时,最终会调用TaskRunner对象中的run方...
复制链接

扫一扫