spark深度剖析

环境

  • 本文使用的spark版本为2.4.8

spark运行流程

总体视图

spark整体视图

  • 上图来自spark官网,关于图上组件的详细说明请参见spark官网

分层视图

spark运行分资源请求和任务调度两条线,下图绿色线为资源请求线,而红色线为任务调度线。
spark运行整体流程

  • spark的计算层可以基于YARN、Apache Mesos、Kubernetes,也可以使用自身的standalone 模式,通过StandaloneAppClient实现与资源层的消息交互,通过DriverEndPoint实现与Executor的消息交互,具体如下:
    standalone模式
  • 资源请求时,资源的分配包括垂直分配和水平分配,为避免单台机器负载过大,默认采用水平分配模式

角色划分

资源层

  • master——负责集群资源的管理
  • worker——汇报资源情况、管理本节点的executor

计算层

  • driver——负责向集群申请资源、job拆分、任务调度、执行结果收集
  • executor——负责任务的执行以及执行情况的报告

RDD

RDD是spark中的核心概念,是不可变的、可进行并行计算的记录分区集。RDD主要包括如下属性:

  • 分区集
  • 作用于分区上的计算函数
  • RDD依赖关系
  • 分区函数(可选,默认hash分区)
  • 首选计算位置(可选,根据计算向数据移动原则,使计算作用于合适节点上的数据,比如hdfs中block的位置)

RDD依赖关系

  • NarrowDependency
    • OneToOneDependency
    • RangeDependency
  • ShuffleDependency

Narrow依赖不涉及数据移动,而Shuffle依赖需要Shuffle写和Shuffle读,Shuffle依赖是DAG Scheduler进行stage拆分的依据。

RDD操作

RDD操作分为两类:

  • transformations——从一个rdd生成新的rdd(一个dataset到新的dataset),比如filter、map
  • actions——在数据集上进行计算,输出结果,比如foreach、count

任务调度

job、stage、task及关系

概念

  • job——RDD上的每个actions类的操作都会生成一个job。
  • stage——在每个job中,DAGScheduler以RDD上transformations类操作生成的ShuffeRDD(对应RDD依赖关系为shuffle依赖)为边界,划分stage,每个stage会生成中间结果,供后续stage使用。stage分为ShuffleMapStage和ResultStage,前者输出中间结果,后者输出最终结果。
  • task——数据集的每个分区上的函数计算,对应ShuffleMapStage和ResultStage,最后会转换为对应的ShuffleMapTask和ResultTask集。

关系

一个job包括多个stage,一个stage包括多个task
job stage task关系

DAGScheduler

DAGScheduler是顶级调度,面向stage,负责把job拆分为stage(依据就是RDD之间的shuffle依赖关系),根据分区情况,把stage转换成task集合,提交给TaskScheduler,然后跟踪每个stage的执行情况,下面以word count例子进行说明。

测试数据

hello world spark
good morning hawk
hello world hawk
hawk good morning
by by hawk

代码

object WorldCount {
   

  def main(args: Array[String]): Unit = {
   
    val conf = new SparkConf()
    conf.setAppName("worldcount")
    conf.setMaster("local")

    val sc = new SparkContext(conf)
    val wordfileRDD:RDD[String] = sc.textFile("data/wordcount.txt")
    val flatMapRDD = wordfileRDD.flatMap(_.split(
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值