任务调度Schedulerx2.0分布式计算原理&最佳实践

黄晓萌

已于 2022-03-11 20:14:02 修改

阅读量1.4k

点赞数

分类专栏：阿里巴巴任务调度SchedulerX 文章标签： mapreduce big data 云计算中间件分布式

于 2022-03-11 15:17:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangmeng1214/article/details/123425691

版权

本文深入探讨Schedulerx2.0的分布式执行引擎，包括Map模型的并行计算和网格计算原理，以及最佳实践，旨在帮助读者理解如何提高分布式作业的效率。

摘要由CSDN通过智能技术生成

1. 前言

Schedulerx2.0的客户端提供分布式执行、多种任务类型、统一日志等框架，用户只要依赖schedulerx-worker这个jar包，通过schedulerx2.0提供的编程模型，简单几行代码就能实现一套高可靠可运维的分布式执行引擎。

这篇文章重点是介绍基于schedulerx2.0的分布式执行引擎原理和最佳实践，相信看完这篇文章，大家都能写出高效率的分布式作业，说不定速度能提升好几倍:)

2. 可扩展的执行引擎

Worker总体架构参考Yarn的架构，分为TaskMaster, Container, Processor三层：

TaskMaster：类似于yarn的AppMaster，支持可扩展的分布式执行框架，进行整个jobInstance的生命周期管理、container的资源管理，同时还有failover等能力。默认实现StandaloneTaskMaster（单机执行），BroadcastTaskMaster（广播执行），MapTaskMaster（并行计算、内存网格、网格计算），MapReduceTaskMaster（并行计算、内存网格、网格计算）。
Container：执行业务逻辑的容器框架，支持线程/进程/docker/actor等。
Processor：业务逻辑框架，不同的processor表示不同的任务类型。

以MapTaskMaster为例，大概的原理如下图所示：

3. 分布式编程模型之Map模型

Schedulerx2.0提供了多种分布式编程模型，这篇文章主要介绍Map模型（之后的文章还会介绍MapReduce模型，适用更多的业务场景），简单几行代码就可以将海量数据分布式到多台机器上进行分布式跑批，非常简单易用。

针对不同的跑批场景，map模型作业还提供了并行计算、内存网格、网格计算三种执行方式：

并行计算：子任务300以下，有子

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
任务调度Schedulerx2.0分布式计算原理&最佳实践

通过schedulerx2.0提供的分布式编程模型，简单几行代码就能将海量任务进行分布式跑批。这篇文章介绍schedulerx2.0分布式计算原理和最佳实践，相信看完这篇文章，大家都能写出高效率的分布式作业，说不定速度能提升好几倍:)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。