任务调度系统-任务依赖的设计

 1.     任务依赖需求描述

例子:

一个作业分为如下子任务:

任务1,任务2,任务3,任务4

执行的顺序为,任务1---》任务2,任务3---》任务4

其中任务2,任务3可以并行执行,我们用下图描述:

                                                   

这是一个图形结构,我们预设,任务的起始点永远都是一个根节点,不管你业务如何,遵从这个设计是没有难度的,以后的流程,可以并行,也可以串行,任何一个阶段,都能支持并行和串行,因此,我们的子任务关系构成的数据结构为一个图。

 

2. 任务调度简单流程

 

  1. 首先定义一个job代表一次业务的调度,job维护了任务1到任务4之间的关系。
  2. 找到job的根节点任务1,先执行任务1,因为是根节点,没有父类,因此没有先决条件,任务被调度时,即可执行。
  3. 执行完根节点之后,看该节点是否有子节点,没有则不继续,有则并行执行所有子节点的任务。
  4. 此时任务2和任务3会被并行调用,我们假设调用指令先到任务2,任务2发现有1个父节点,且调用指令中表示父节点已经执行完成,那么就开始执行任务2的调度,同理任务3也是同样的逻辑。
  5. 任务2和任务3执行完成之后,会先后或者同时调用任务4,我们这里为了避免同时并发造成的困扰,任务被调用这个方法要设置成同步,那么假设任务2先调用任务4,此时我们在内存中记录任务2已完成,并且任务4发现自己的2个父节点中,任务3的指令并没有来到,因此,此次调度跳过,等待任务3指令的到来。
  6. 当任务3的指令到来,我们根据jobid,找到之前暂停的job,此时发现任务2,3都执行完成,那么开始执行任务4,本次业务调度完成。

 

 

3. 数据结构java类描述

    //jobConfig 及其子任务的依赖关系描述 

public class JobConfig {

    private Long id; //id     

    private TaskConfig task; //子任务根节点

    private String corn; //corn表达式   

}

 

// TaskConfig 描述子任务之间的依赖关系

public class TaskConfig {  

    Long id;                     

    String name; //任务名称  

    private Long jobId; //jobid

    private String target; //目标任务

    List<TaskConfig> parent; //父节点 

    List<TaskConfig> child; //子节点

}

 

//job类,描述每次任务调度的job

public class Job {

    Long id;

    JobConfig jobConfig; //所属job_config

    int status; //执行状态

}

 

//task类,描述每次任务调度的task

public class Task {

    Long id;

    TaskConfig taskConfig; //所属task_config

    Job job; //所属job

    int status; //执行状态

   //task

List<Task> parentList;

}

 

 

4. 表结构描述

我们需要定义一些表来描述作业子任务之间的静态关系

和执行时的任务状态动态关系

 

/*

job_config

用来描述job及其子任务的静态关系

*/

create table job_config(

  id,

  root_task_id --任务根节点

  corn    --corn表达式

);

 

 

/*

task_config表,描述job下的子任务之间的静态依赖关系

属于job_config表的子表

*/

create table task_config(

    id,  --id

    name,                                    --任务名称

    parent_id --父节点,多个用逗号隔开

    child_id  --子节点,多个用逗号隔开

    job_id    --所属的job_id

    target    --目标任务

)

 

 

/*

job执行状态表

 

*/

create table job(

    id,

    job_config_id, -- 所属job_config

    status, -- 执行状态

);

 

/*

task 执行状态表

job 的子表

*/

 

create table task(

    id,

    task_config_id, -- 所属task_config

    job_id, -- 所属job

    status, -- 执行状态

);

 

5. 伪代码描述job执行流程

 

捞取所有job_config表记录,根据corn去触发定时任务

事先构造job_config及其子任务之间的关系,从数据库中根据job_id捞取出

所有的task_config,然后根据其child,parent等构造一个关系对象

JobConfig jobConfig = buildJobConfig();

Job job =buildJob(); //包含持久化job

job.setJobConfig(jobConfig);

job.execute();

 

job.execute()方法详细代码:

//执行任务

public void execute(){

  //构造task树,描述task及其子task的关系

  //并持久化到数据库中

  Task root = buildRootTask();

  root.execute();

}

 

//task.execute 方法

public void execute(){

   String target = taskConfig.getTarget();

   //是否能执行,要判断先决条件,如果父节点未全部执行完,则跳过此次执行

   if(this.canRun()){

     boolean success = callTargetTask(target);

     if(success){

       //更新状态为成功

       this.updateStatusToSuccess();

     }else{

        //更新状态为失败

        this.updateStatusToFailed();

     }                                          

   }

   if(childList.size()>0){

     //递归执行子任务

     for(Task task : childList){

        task.execute();

     }

   }                                      

}

 

private boolean canRun(){

   for(Task task : parentList){

      if(!task.isFinished()){

         return false;

      }

   }

   return true;

}

 

Buildjobconfig代码:

 

 

6.任务失败重试设计

待续

 

分布式任务系统

任务调度系统,和任务执行系统应该分开部署

任务执行系统可以部署多台。调度系统也可以部署多台。

任务调度系统在callTargetTask的时候,用远程调用的形式,这样可以尽可能的提高并发的性能

和系统稳定性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
XXL-JOB是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。 XXL-JOB特点: 1、简单:支持通过Web页面对任务进行CRUD操作,操作简单,一分钟上手; 2、动态:支持动态修改任务状态、启动/停止任务,以及终止运行中任务,即时生效; 3、调度中心HA(中心式):调度采用中心式设计,“调度中心”自研调度组件并支持集群部署,可保证调度中心HA; 4、执行器HA(分布式):任务分布式执行,任务"执行器"支持集群部署,可保证任务执行HA; 5、注册中心: 执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行。同时,也支持手动录入执行器地址; 6、弹性扩容缩容:一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务; 7、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性HASH、最不经常使用、最近最久未使用、故障转移、忙碌转移等; 8、故障转移:任务路由策略选择"故障转移"情况下,如果执行器集群中某一台机器故障,将会自动Failover切换到一台正常的执行器发送调度请求。 9、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖之前调度; 10、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务; 11、任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试;其中分片任务支持分片粒度的失败重试; 12、任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方便的扩展短信、钉钉等告警方式; 13、分片广播任务:执行器集群部署时,任务路由策略选择"分片广播"情况下,一次任务调度将会广播触发集群中所有执行器执行一次任务,可根据分片参数开发分片任务; 14、动态分片:分片广播任务以执行器为维度进行分片,支持动态扩容执行器集群从而动态增加分片数量,协同进行业务处理;在进行大数据量业务操作时可显著提升任务处理能力和速度。 15、事件触发:除了"Cron方式"和"任务依赖方式"触发任务执行之外,支持基于事件的触发任务方式。调度中心提供触发任务单次执行的API服务,可根据业务事件灵活触发。 16、任务进度监控:支持实时监控任务进度; 17、Rolling实时日志:支持在线查看调度结果,并且支持以Rolling方式实时查看执行器输出的完整的执行日志; 18、GLUE:提供Web IDE,支持在线开发任务逻辑代码,动态发布,实时编译生效,省略部署上线的过程。支持30个版本的历史版本回溯。 19、脚本任务:支持以GLUE模式开发和运行脚本任务,包括Shell、Python、NodeJS、PHP、PowerShell等类型脚本; 20、命令行任务:原生提供通用命令行任务Handler(Bean任务,"CommandJobHandler");业务方只需要提供命令行即可; 21、任务依赖:支持配置子任务依赖,当父任务执行结束且执行成功后将会主动触发一次子任务的执行, 多个子任务用逗号分隔; 22、一致性:“调度中心”通过DB锁保证集群分布式调度的一致性, 一次任务调度只会触发一次执行; 23、自定义任务参数:支持在线配置调度任务入参,即时生效; 24、调度线程池:调度系统多线程触发调度运行,确保调度精确执行,不被堵塞; 25、数据加密:调度中心和执行器之间的通讯进行数据加密,提升调度信息安全性; 26、邮件报警:任务失败时支持邮件报警,支持配置多邮件地址群发报警邮件; 27、推送maven中央仓库: 将会把最新稳定版推送到maven中央仓库, 方便用户接入和使用; 28、运行报表:支持实时查看运行数据,如任务数量、调度次数、执行器数量等;以及调度报表,如调度日期分布图,调度成功分布图等; 29、全异步:任务调度流程全异步化设计实现,如异步调度、异步运行、异步回调等,有效对密集调度进行流量削峰,理论上支持任意时长任务的运行; 30、跨语言:调度中心与执行器提供语言无关的 RESTful API 服务,第三方任意语言可据此对接调度中心或者实现执行器。除此之外,还提供了 “多任务模式”和“httpJobHandler”等其他跨语言方案; 31、国际化:调度中心支持国际化设置,提供中文、英文两种可选语言,默认为中文; 32、容器化:提供官方docker镜像,并实时更新推送dockerhub,进一步实现产品开箱即用; 33、线程池隔离:调度线程池进行隔离拆分,慢任务自动降级进入"Slow"线程池,避免耗尽调度线程,提高系统稳定性; 34、用户管理:支持在线管理系统用户,存在管理员、普通用户两种角色; 35、权限控
Apache DolphinScheduler(incubator,原EasyScheduler)是一个大数据分布式工作流任务调度系统,主要解决大数据研发过程中ETL处理错综复杂的依赖关系,而不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。 设计特点:一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 其主要目标如下: 1、以DAG图的方式将Task按照任务依赖关系关联起来,可实时可视化监控任务的运行状态 2、支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Process、Procedure等 3、支持工作流定时调度依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill任务等操作 4、支持工作流优先级、任务优先级及任务的故障转移及任务超时告警/失败 5、支持工作流全局参数及节点自定义参数设置 6、支持资源文件的在线上传/下载,管理等,支持在线文件创建、编辑 7、支持任务日志在线查看及滚动、在线下载日志等 8、实现集群HA,通过Zookeeper实现Master集群和Worker集群去中心化 9、支持对Master/Worker cpu load,memory,cpu在线查看 10、支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计 11、支持补数 12、支持多租户 13、支持国际化 14、还有更多等待伙伴们探索

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值