spark深度剖析

心静自然亮

已于 2022-06-29 16:23:22 修改

阅读量326

点赞数

分类专栏：大数据文章标签： spark 大数据 hadoop

于 2022-06-27 14:13:54 首次发布

本文链接：https://blog.csdn.net/hawk199/article/details/125339048

版权

本文深入探讨Spark的运行流程，从总体视图和分层视图解析其架构，详细介绍了RDD、任务调度、内存管理和Shuffle过程。特别关注DAGScheduler、TaskScheduler的工作原理，以及内存管理的StaticMemoryManager和UnifiedMemoryManager。此外，文章还阐述了ShuffleWriter的不同类型及其在数据读写的机制。

摘要由CSDN通过智能技术生成

环境

本文使用的spark版本为2.4.8

spark运行流程

总体视图

spark整体视图

上图来自spark官网，关于图上组件的详细说明请参见spark官网

分层视图

spark运行分资源请求和任务调度两条线，下图绿色线为资源请求线，而红色线为任务调度线。
spark运行整体流程

spark的计算层可以基于YARN、Apache Mesos、Kubernetes,也可以使用自身的standalone 模式，通过StandaloneAppClient实现与资源层的消息交互，通过DriverEndPoint实现与Executor的消息交互，具体如下：
资源请求时，资源的分配包括垂直分配和水平分配，为避免单台机器负载过大，默认采用水平分配模式

角色划分

资源层

master——负责集群资源的管理
worker——汇报资源情况、管理本节点的executor

计算层

driver——负责向集群申请资源、job拆分、任务调度、执行结果收集
executor——负责任务的执行以及执行情况的报告

RDD

RDD是spark中的核心概念，是不可变的、可进行并行计算的记录分区集。RDD主要包括如下属性：

分区集
作用于分区上的计算函数
RDD依赖关系
分区函数（可选，默认hash分区）
首选计算位置（可选，根据计算向数据移动原则，使计算作用于合适节点上的数据，比如hdfs中block的位置）

RDD依赖关系

NarrowDependency
- OneToOneDependency
- RangeDependency
ShuffleDependency

Narrow依赖不涉及数据移动，而Shuffle依赖需要Shuffle写和Shuffle读，Shuffle依赖是DAG Scheduler进行stage拆分的依据。

RDD操作

RDD操作分为两类:

transformations——从一个rdd生成新的rdd(一个dataset到新的dataset),比如filter、map
actions——在数据集上进行计算，输出结果，比如foreach、count

任务调度

job、stage、task及关系

概念

job——RDD上的每个actions类的操作都会生成一个job。
stage——在每个job中，DAGScheduler以RDD上transformations类操作生成的ShuffeRDD(对应RDD依赖关系为shuffle依赖)为边界，划分stage，每个stage会生成中间结果，供后续stage使用。stage分为ShuffleMapStage和ResultStage,前者输出中间结果，后者输出最终结果。
task——数据集的每个分区上的函数计算，对应ShuffleMapStage和ResultStage，最后会转换为对应的ShuffleMapTask和ResultTask集。

关系

一个job包括多个stage,一个stage包括多个task
job stage task关系

DAGScheduler

DAGScheduler是顶级调度，面向stage，负责把job拆分为stage（依据就是RDD之间的shuffle依赖关系），根据分区情况，把stage转换成task集合，提交给TaskScheduler，然后跟踪每个stage的执行情况，下面以word count例子进行说明。

测试数据

hello world spark
good morning hawk
hello world hawk
hawk good morning
by by hawk

代码

object WorldCount {
   

  def main(args: Array[String]): Unit = {
   
    val conf = new SparkConf()
    conf.setAppName("worldcount")
    conf.setMaster("local")

    val sc = new SparkContext(conf)
    val wordfileRDD:RDD[String] = sc.textFile("data/wordcount.txt")
    val flatMapRDD = wordfileRDD.flatMap(_.split(