Spark Learning（RDD计算）

最新推荐文章于 2024-04-23 09:49:37 发布

Bighead_xd

最新推荐文章于 2024-04-23 09:49:37 发布

阅读量229

点赞数

分类专栏： hadoop Spark

本文链接：https://blog.csdn.net/qq_28093553/article/details/78483094

版权

Spark 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

hadoop

1 篇文章 0 订阅

订阅专栏

RDD计算

原始的RDD经过一系列转换后，会在最后一个RDD上触发一个动作，这个动作生成一个 job ， job 被划分为一批计算任务 task 后，会被提交到集群上的计算节点，计算节点中执行计算逻辑的部分称为 executor 。

Spark中的 task 分为 ShuffleMapTask 和 ResultTask 两种。DAG最后一个阶段为每个结果的 Partition 生成一个 ResultTask ，其余阶段都会生成 ShuffleMapTask 。

Executor通过org.apache.spark.scheduler.Task.run() 调用 ShuffleMapTask 或者 ResultTask 的 runTask() 方法执行Task。

//runTask会调用RDD的iterator方法，伪源码如下：
if(storageLevel != StorageLevel.NONE){
    //如果存储级别不是NONE，先检查是否有缓存，没有再进行计算
    SparkEnv.get.cacheManager.getOrCompute(...)
}else{
    //如果有CheckPoint那么直接读取结果，没有直接计算
    computeOrReadCheckPoint(...)
}

SparkEnv包含运行节点所需要的所有环境信息， cacheManager 是负责调用 BlockManager 来管理RDD缓存。SparkEnv除了cacheManger，还包括以下重要的成员变量：

– akka.actor.ActorSystem：运行在该节点的ActorSystem，其中运行在Driver上是sparkDriver，运行在Executor上是sparkExecutor。

– org.apache.spark.MapOutputTracker : 保存ShuffleMapTask输出的位置信息，其中在Driver上的Tracer是 MapOutputTrackerMaster ，在Executor上的Tracer是 MapOutputTrackerWorker 。

– org.apache.spark.shuffle.shuffleManager : Shuffle管理者，其中在Driver上会注册Shuffle信息，Executor会上报和获取Shuffle的信息。

– org.apache.spark.storage.BlockManager : 提供了Storage模块与其他模块交互接口。
用户在创建org.apache.spark.SparkContext时会创建SparkEnv。

Checkpoint 处理：在job结束后，会判断是否需要Checkpoint，若需要，调用 org.apache.spark.rdd.RDDCheckPointData 的 doCheckpoint() 方法。

doCheckpoint首先为数据集创建一个目录，然后启动一个新的job计算，并调用 writeToFile() 将计算结果写入新创建的目录；接着创建 org.apache.spark.rdd.CheckpointRDD ；最后清除原始RDD依赖，依赖变为对应的CheckpointRDD。

RDD的计算逻辑是通过 org.apache.spark.rdd.RDD 的 compute() 方法实现的，每个特定的RDD都会实现compute，如CheckpointRDD的compute是直接读取checkpoint数据，HadoopRDD就是读取指定Partition的数据，MapPartitionsRDD就是将用户的转换逻辑作用到指定的Partition上。

Bighead_xd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Learning（RDD计算）

RDD计算原始的RDD经过一系列转换后，会在最后一个RDD上触发一个动作，这个动作生成一个 job ， job 被划分为一批计算任务 task 后，会被提交到集群上的计算节点，计算节点中执行计算逻辑的部分称为 executor 。Spark中的 task 分为 ShuffleMapTask 和 ResultTask 两种。DAG最后一个阶段为每个结果的 Partition 生成一个 ResultT
复制链接

扫一扫