Spark 源码阅读（1）——WordCount程序执行流程

最新推荐文章于 2021-08-16 10:56:45 发布

21989939

最新推荐文章于 2021-08-16 10:56:45 发布

阅读量581

点赞数 1

分类专栏：【大数据】Spark-原理文章标签： spark

本文链接：https://blog.csdn.net/qq_21989939/article/details/79448471

版权

本文深入探讨Spark的RDD源码，通过WordCount程序为例，详细解析textFile、hadoopFile及HadoopRDD的源码实现，揭示Spark处理文件及计算的内部机制。

摘要由CSDN通过智能技术生成

1.RDD 源码解析

主要方法属性：

- A list of partitions
- A function for computing each split
- A list of dependencies on other RDDs
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
- Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

RDD是一个抽象类，继承类可以有多种实现；

第1个参数SparkContext，@transient表示不需要序列化

第2个参数deps，表示依赖关系

abstract class RDD[T: ClassTag](
    @transient private var _sc: SparkContext,
    @transient private var deps: Seq[Dependency[_]]
) extends Serializable with Logging {
  
  //该方法只会被调用一次。由子类实现，返回这个RDD的所有partition。
 protected def getPartitions: Array[Partition]
 //该方法只会被调用一次。计算该RDD和父RDD的依赖关系
 protected def getDependencies: Seq[Dependency[_]] = deps
 // 对分区进行计算，返回一个可遍历的结果
 def compute(split: Partition, context: TaskContext): Iterator[T]
 //可选的，指定优先位置，输入参数是split分片，输出结果是一组优先的节点位置
 protected def getPreferredLocations(split: Partition): Seq[String] = Nil
 //可选的，分区的方法，针对第4点，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce
 @transient val partitioner: Option[Partitioner] = None
}

2.以wordCount程序举例

import org.apache.spark.SparkContext
import org.apache.

最低0.47元/天解锁文章

21989939

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 源码阅读（1）——WordCount程序执行流程

1.RDD 源码解析主要方法属性：- A list of partitions- A function for computing each split- A list of dependencies on other RDDs- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-p...
复制链接

扫一扫

专栏目录