Spark源码阅读04-Spark运行架构之Local运行模式,多图详解CLH锁的原理与实现

case LOCAL_N_FAILURES_REGEX(threads, maxFailures) =>

def localCpuCount: Int = Runtime.getRuntime.availableProcessors()

// local[*, M] means the number of cores on the computer with M failures

// local[N, M] means exactly N threads with M failures

val threadCount = if (threads == “*”) localCpuCount else threads.toInt

val scheduler = new TaskSchedulerImpl(sc, maxFailures.toInt, isLocal = true)

val backend = new LocalSchedulerBackend(sc.getConf, scheduler, threadCount)

scheduler.initialize(backend)

(backend, scheduler)

}

2.执行作业,创建Executor并运行任务

对作业的执行首先为对划分调度状态,形成任务集。然后将任务集按照拆分的顺序发送给本地终端点LocalEndpoint,其在接收到任务集后,就在本地启动Executor,启动后,直接在启动的Executor上执行接收到的任务集。

private[spark] class LocalEndpoint(

override val rpcEnv: RpcEnv,

userClassPath: Seq[URL],

scheduler: TaskSchedulerImpl,

executorBackend: LocalSchedulerBackend,

private val totalCores: Int)

extends ThreadSafeRpcEndpoint with Logging {

//启动executor,启动islocal为真表示本地启动

private val executor = new Executor(

localExecutorId, localExecutorHostname, SparkEnv.get, userClassPath, isLocal = true)

def reviveOffers() {

val offers = IndexedSeq(new WorkerOffer(localExecutorId, localExecutorHostname, freeCores,

Some(rpcEnv.address.hostPort)))

//根据设置线程数启动相应得线程处理任务

for (task <- scheduler.resourceOffers(offers).flatten) {

freeCores -= scheduler.CPUS_PER_TASK

executor.launchTask(executorBackend, task)

}

}

}

如果设置了多线程,则启动多个Executor并行处理任务

3.反馈任务执行状态

Executor负责执行任务,本地终端点LocalEndpoint将任务执行的状态反馈给上层的作业调度器。上层的作业调度器根据接收到的消息更新任务状态,同时根据这个反馈,实时的调整整个任务集的状态。

private[spark] class LocalEndpoint(

override val rpcEnv: RpcEnv,

userClassPath: Seq[URL],

scheduler: TaskSchedulerImpl,

executorBackend: LocalSchedulerBackend,

private val totalCores: Int)

extends ThreadSafeRpcEndpoint with Logging {

//任务更新

case StatusUpdate(taskId, state, serializedData) =>

scheduler.statusUpdate(taskId, state, serializedData)

if (TaskState.isFinished(state)) {

freeCores += scheduler.CPUS_PER_TASK

reviveOffers()

}

}

如果该任务集完成,则进行下一个任务集

4.程序运行完成,回收资源

根据反馈状态,当所有的任务集完成之后,任务这个时候也就完成了。此时上层作业调度器就注销在LocalBackend中运行的Executor,然后释放DAGScheduler、TaskScheduler和LocalBackend等进程,最后注销SparkContext,进行资源回收。

实现原理


本地运行模式下类调用关系图如下

在这里插入图片描述

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Java)
img

最后总结

ActiveMQ+Kafka+RabbitMQ学习笔记PDF

image.png

  • RabbitMQ实战指南

image.png

  • 手写RocketMQ笔记

image.png

  • 手写“Kafka笔记”

image

关于分布式,限流+缓存+缓存,这三大技术(包含:ZooKeeper+Nginx+MongoDB+memcached+Redis+ActiveMQ+Kafka+RabbitMQ)等等。这些相关的面试也好,还有手写以及学习的笔记PDF,都是啃透分布式技术必不可少的宝藏。以上的每一个专题每一个小分类都有相关的介绍,并且小编也已经将其整理成PDF啦
链图片转存中…(img-S8gaQGCC-1711954916623)]

关于分布式,限流+缓存+缓存,这三大技术(包含:ZooKeeper+Nginx+MongoDB+memcached+Redis+ActiveMQ+Kafka+RabbitMQ)等等。这些相关的面试也好,还有手写以及学习的笔记PDF,都是啃透分布式技术必不可少的宝藏。以上的每一个专题每一个小分类都有相关的介绍,并且小编也已经将其整理成PDF啦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值