大数据的分布式调度

大数据的分布式调度在进行数据 ETL 过程中承担承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文将从调度、分布式调度的特征,再对大数据调度个性化特征进行阐述,在满足大数据使用的架构和业务场景上娓娓道来,打造一个高可用、高效率、灵活性的大数据调度平台。

调度

从上个世纪50年代起,调度问题的研究就受到数学、运筹学、工程技术学等领域科学的重视[1],人们主要从数学的角度来研究调度问题,调度问题也同样被定义为“分配一组资源来执行一组任务”,以获得生产任务执行时间或成本的最优[2]。调度在计算机任务的实现可以依赖操作系统的定时任务进行触发(例如 Linux 系统的 Crontab),主要针对单任务机制的触发,调度最基本的需要是能够按时或者按照事件进行触发(At-least-once),如果任务不符合预期,还需要在应用端进行重试,最大可能保证任务被按时执行,并且成功执行,同时不能多次执行(Exactly once);但是在业务场景能保证可重复执行、一致性操作情况下对于争取能正常调度执行多次执行也是不可或缺的,比如给商户进行 1m 前的例行结算,如果结算是按照 30min 的时间窗口查找未结算的商户,那么就会容忍 30min 延迟,并且多次被执行也不会给商户多结算,因为在结算付款和重置是否结算标志位可以设计成原子性操作。所以在调度上能够做到按时、正确的执行,在业务方设计为了保证最终一致性也有一些架构取舍。

如果应用场景有上下游的协作,或者在任务执行时会存在不同的宿主机来完成,或者为了保证任务高可用场景,就需要引入分布式调度的架构。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值