spark 调度

转载 2016年05月31日 18:13:35

1、fair调度模式

  就是需要用户配置权重

2、配置调度池

   用户可以通过配置文件自定义调度池的属性

1、调度模式

2、权重

3、minshare  配置多少个cpu的内核


stage 和 tasksetmanager调度

 stage的调度是由dagscheduler完成的,由rdd的有向五环图dag切分除了stage的有向五环图  stage的dag通过最后执行的stage为根进行广度优先遍历,遍历到最开始执行的stage执行,如果提交的stage任有未完成的父母stage,则stage需要等待其父 stage执行完成才能执行。

整体的task分发又taskschedulerimple来实现,但是task得调度(本质上是task在哪个分区执行)逻辑由tasksetmanager完成,这个类监控整个任务的生命周期,当任务失败时  如执行时间超过一定的阈值, 重新调度,也会通过


读写流程

1、数据写入

 数据写入的简要流程,读取流程和写入流程类似,数据写入流程主要分为以下几个步骤。

 1、rdd调用compute方法进行指定分区的写入

2、cachemanager中调用blockmanager判断数据是否已经写入,如果未写入则写入

3、blockmanager中数据与其他节点同步

4、blockmanger根据存储级别写入指定的存储层

5、blockmanager向主节点回报存储状态


详细步骤如下

 入库在rdd累中通过computer方法调用 iterator方法进行某个分区 partition的读写,partition是逻辑概念,在物理上是一个block 具体实现如下

 1、在cachemanger累中,getorcompute方法通过调用blockmanager的put接口来写入数据,我们可以看到,在这里有个判断逻辑,它先从内存cache读取是否又快可以读取。


使用Azkaban调度Spark任务

Azkaban是一种类似于Oozie的工作流控制引擎,可以用来解决多个Hadoop(或Spark等)离线计算任务之间的依赖关系问题。 也可以用其代替cron来对周期性任务进行调度,并且更为直...
  • lsshlsw
  • lsshlsw
  • 2016年03月08日 22:26
  • 7733

Spark作业调度

  • 2015年04月30日 13:23
  • 5.57MB
  • 下载

spark 调度模块详解及源码分析

spark 调度模块详解及源码分析@(SPARK)[spark]spark 调度模块详解及源码分析 一概述 一三个主要的类 1class DAGScheduler 2trait TaskSchedul...

Spark schedule资源调度分配详解

一:任务调度与资源调度的区别 1. 任务调度:是通过DAGScheduler,TaskScheduler,SchedulerBackend等进行的作业调度; 2. 资源调度:是指应用程序如何获...

Spark 性能相关参数配置详解-任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 任务...
  • colorant
  • colorant
  • 2014年08月19日 14:47
  • 27668

Spark性能调优--调度与分区优化

Spark 性能调优

spark的作业调度问题

1. 文档来源 http://spark.apache.org/docs/1.6.1/job-scheduling.html 2. 调度策略 spark有多种策略在计算之间进行资源规划。 一个...

Spark性能调优:调度分配更多资源

资源调优概述性能调优的王道就是增加和分配更多的资源,性能和速度上的提升是显而易见的。基本上,在一定范围之内,增加资源与性能的提升是成正比的。Spark的资源参数,基本都可以在spark-submit命...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:spark 调度
举报原因:
原因补充:

(最多只允许输入30个字)