Spark中Yarn资源调度与任务调度详解

最新推荐文章于 2024-10-12 15:46:02 发布

Eve—

最新推荐文章于 2024-10-12 15:46:02 发布

阅读量1.2k

点赞数 21

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/2301_77702743/article/details/142467865

版权

yarn是大数据中十分重要的一个组件，对于资源的调度和任务调度有着不可或缺的作用。如果难以理解可以类比一下通过zookeeper去实现高可用，今天，我们来具体的聊一聊yarn的资源调度和任务调度的方式。

名词提要与介绍

1）Application：基于spark的应用程序，包含了Driver程序和集群上的Executor

2）Executor：是在一个WorkNode上为某应用启动的一个进程，该进程负责运行任务，并且将数据存储在内存或者磁盘上。每一个应用都有各自独立的Executors

3）Task：是一个线程对象，是被送到某个Executor上的执行单元

4）DriverProgram：运行main函数并新建SparkContext的程序

5）ClusterManager：在集群上获取资源的外部服务

6）WorkerNode：集群中任何可以运行应用代码的节点

7）Job：包含很多任务的并行计算的task

8）Stage：一个Stage是一组可以并行计算的task。一个stage会被拆分成很多组任务，魅族任务被称为stage

好的，主角们都出场了，下面我来介绍一下具体的过程吧，他们之间的联系我会放在最后，供大家参考

一、资源调度

Yarn中的资源调度主要分为两种模式，分别为yarn-client模式和yarn-cluster模式，这两个模式在答题构架上是几乎相同的，区别仅仅是Driver端的位置，所以我们先来介绍yarn-client模式，等会儿我们稍微变动下介绍yarn-cl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Eve—

关注关注

21
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Yarn资源管理和任务调度原理与代码实例讲解

余美丽的技术博客

12-23

774

Yarn资源管理和任务调度原理与代码实例讲解 1. 背景介绍 Hadoop YARN（Yet Another Resource Negotiator）是一个开源的分布式资源管理系统，负责分配集群中的计算资源，并调度各种分布式应用。YARN项目最初由Facebook开发，后来成为

关于 Spark on Yarn 的资源分配与 Capacity Scheduler 的研究

Laurence的技术博客

06-18

3247

文章目录1.启用CapacityScheduler2.集群信息与配置2.1.yarn.nodemanager.resource.xxx2.2.yarn.scheduler.minimum/maximum-xxxx3.SparkonYarn的内存模型4.user-limit-factor：单用户时提升资源利用率的重要因子5.规整化因子6.测试队列资源划分方案7.测试计划7.1.用例一7.2.用例二7.3.用例三7.2.用例四8.小结资源调度永远是一个对立统一的问题，在一个限

参与评论您还未登录，请先登录后发表或查看评论

YARN调度原理详解

最新发布

goTsHgo的博客

10-12

1072

YARN（Yet Another Resource Negotiator）是 Hadoop 集群的资源管理和作业调度框架，它的设计旨在更好地管理和调度 Hadoop 集群中的资源。YARN 解决了传统 Hadoop MapReduce 中资源管理与作业调度紧耦合的问题，使得不同类型的计算任务可以在 Hadoop 集群上共存并高效地利用资源。

hadoop生态圈之任务调度器yarn

hzs33的博客

03-01

335

yarn出现 yarn是hadoop2.x后出现负责资源调度，它不仅支持mapreduce的计算，还支持hive、spark等计算框架的计算。 yarn组件 yarn包含组件：resourceManager、ApplicationMaster、Container、NodeManager resourceManager: 负责资源调度，与AM进行通信、与NodeManager进行通信。Nod...

yarn任务调度

LW_ICE

07-05

3508

YARN任务资源调度

Peanut_508的博客

01-25

1314

apache是Hadoop的集群资源管理系统，YARN被引入Hadoop2，最初是为了改善MapReduce的实现，但它具有足够的通用性，同时可以支持其他的分布式计算模式。剖析YARN应用运行机制 YARN通过两类长期运行的守护进程提供自己的核心服务：管理集群上资源使用的资源管理器（ResourceManager）和运行在集群中所有集群上且能够启动和监控容器的节点管理器（nodeManag...

Hadoop yarn任务调度策略介绍

张普的专栏

06-05

1093

转载：　https://www.iteblog.com/archives/1536.html 本文将介绍Hadoop YARN提供的三种任务调度策略：FIFO Scheduler，Capacity Scheduler 和 Fair Scheduler。 FIFO Scheduler 　　顾名思义，这就是先进先出(first in, first out)调度策略，所有的applica

图解YARN任务调度，资源调度

Lpf的博客

05-24

4610

yarn任务调度，资源调度 1、客户端去ResourceManager取任务编号 2、ResourceManager在HDFS上创建个以任务编号命名的目录 3、客户端经行输入输出检查，计算切片信息等 4、客户端把jar，conf，切片信息上传到HDFS以任务编号命名的目录 5、客户端通知ResourceManager启动APPMaster进行资源调度 6、ResourceManager选取一台有...

Yarn的资源调度原理详解

石榴姐yyds

06-12

2092

Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统，而各类运算程序则相当于运行于操作系统之上的应用程序。 YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。

spark10--资源调度模式, yarn的任务调度流程

大数据开发工程师

01-19

702

资源调度模式 Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. local 模式(本地模式) standalone 模式 spark-on-yarn 模式 mesos模式 decker cloud … 用哪种资源调度模式比较好? 需要通过公司需求和运行速度来综合衡量哪种资源调度模...

YARN--资源管理与任务调度

qq_46893497的博客

12-05

589

1、YARN的资源分配每个NodeManager能使用机器的多少资源每个程序的每个Task使用多少资源来运行 YARN的资源配置每台NodeManger能够使用的最大物理内存数 yarn.nodemanager.resource.memory-mb 8192 每台NodeManger能够使用的最大物理CPU核数 yarn.nodemanager.resource.cpu-vcores 8 每个应用最少申请的内存 yarn.scheduler.minimum-allocation-mb 1

YARN的任务调度器深度剖析

Discovery的专栏

10-24

681

目录 YARN安装和启动 YARN任务调度器分类容量调度器的设计思想容量调度器的特点容量调度器的配置容器调度器指定队列执行 Yet Another Resource Negotiator简称YARN，另一种资源协调者，是Hadoop的资源管理器。在Hadoop1.0版本之前是通过MR里面的JobTracker来进行任务的分发，之后Hadoop逐渐划分出YARN模块来管理任务的调度，在Hadoop 2.x版本之后YARN独立成了...

【大数据】YARN调度器及调度策略

Python、Golang、大数据

01-23

2511

YARN负责作业资源调度，在集群中找到满足业务的资源，帮助作业启动任务，管理作业的生命周期。YARN技术架构目前，Hadoop作业调度器主要有三种：先进先出调度器（First In First Out）、容量调度器（Capacity Scheduler）、公平调度器（Fair Scheduler）。Apache Hadoop-1.x 默认调度器为先进先出调度器（First In First Out）；

【大数据】浅析yarn资源管理任务调度流程

GG(❤ ω ❤)YY

03-12

572

hadoop2.x中引入了yarn，它的核心思想就是将MRv1中JobTracker的资源管理和任务调度两个功能分开，分别由ResourceManager和ApplicationMaster进程实现。 ResourceManager：负责整个集群的资源管理和调度。 ApplicationMaster：负责应用程序相关的事务，比如任务调度、任务监控和容错等。 yarn可以使多个计算框架接入...

浅谈yarn的任务管理与资源管理

wanger5354的博客

01-09

1418

YARN（Yet Another Resource Negotiator）是Hadoop 2.x的一个计算框架，旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功能（资源管理和作业调度/监控）分离，以便更好地支持多种应用程序，而不是仅支持MapReduce。YARN采用了全新的架构，包括ResourceManager、NodeManager和ApplicationMaster等组件。

Spark的架构和任务调度

CatherineHuangTT的博客

11-23

708

Spark的任务调度顺序： 1.首先我们会选择集群中的一台机器去提交我们的代码，我们提交的这个代码就是一个application 2.如果是client的模式，会在提交任务的这台机器上面开启一个driver线程，如果是cluster的模式，会随机选择一台机器开启driver线程，driver开启以后，就开始打算执行提交的代码，开启driver的时候对SparkContext进行初始化，

Hadoop-Yarn介绍

Peasmaster的博客

01-02

564

Yarn的架构设计 ResourceManager (RM) ：负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。主要由两个组件构成：调度器和应用程序管理器。调度器 (Scheduler)：调度器根据容量、队列等限制条件（如每个队列分配一定的资源，最多执行一定数量的作

Hadoop—Yarn Scheduler调度器图文详解

喻师傅的学习笔记

04-19

1639

Yarn调度器图文详解

yarn资源调度器

weixin_57342469的博客

07-29

921

定义：yarn是一个资源调度平台，负责为运算程序提供扶额u其运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运算于操作系统之上的运用程序。