任务调度Schedulerx2.0分布式计算之MapReduce模型

黄晓萌

已于 2022-03-11 20:14:27 修改

阅读量3.2k

点赞数

分类专栏：阿里巴巴任务调度SchedulerX 文章标签： mapreduce 分布式 java 中间件大数据

于 2022-03-11 15:04:54 首次发布

本文链接：https://blog.csdn.net/huangmeng1214/article/details/123383807

版权

简介

阿里巴巴任务调度Schedulerx2.0自研轻量级分布式模型MapReduce，可以进行大数据的实时/离线跑批。通过一个map方法就能将海量数据分布式到多台机器上执行，通过process方法处理子任务的业务，最后通过reduce方法可以获取所有子任务执行的状态和结果。常见场景，比如

同时，MapReduce模型的任务，也可以结合工作流一起使用，通过reduce方法可以返回这次跑批的结果，进行工作流上下游数据传递。

大数据跑批，需要配合导入导出工具，先将传统数据库中的数据导入到大数据平台中，跑批结束后，再把结果导回数据库中，导入导出增加了很多时间开销。同时大部分大数据跑批（比如Hadoop的MapReduce模型）过程也比较慢，涉及到数据的拆分和中间结果的数据传输，比较耗时间。不适合用来做实时跑批。

Schedulerx2.0的轻量级MapReduce模型，可以直接操作用户的原始数据库数据，不涉及到数据的导入导出和中间结果的数据传输，可以作为实时业务的跑批。

大数据跑批，需要首先将数据上传到大数据平台中，如果使用云厂商的大数据平台，用户往往担心数据安全问题。

Schedulerx2.0的跑批，不需要上传数据，计算节点也是用户自己的，没有任何安全问题。

大数据跑批，需要将数据上传到大数据平台，跑批过程消耗大数据的计算资源，需要为存储和计算成本买单。

Schedulerx2.0的跑批，不需要任何额外的存储和计算成本，只需要应用依赖一个jar包，即可以将应用自己的机器自建成一个分布式计算引擎，进行MapReduce模型的跑批。

大数据跑批，需要学习大数据的知识，学习成本比较高。如果涉及到非常复杂的业务逻辑（比如需要比较多的条件判断和循环），无法通过大数据跑批解决。虽然大数据系统一般都有提供UDF，但是使用起来还是比较麻烦。

Schedulerx2.0的跑批，直接编写业务代码，兼容Spring原生语法，可以直接调用已经封装好的各种service代码，开发迅速，可读性高。

使用MapReduce模型，只需要继承com.alibaba.schedulerx.worker.processor.MapReduceJobProcessor，该抽象类有如下接口须实现：

接口	是否必选	描述
public ProcessResult map(List<? extends Object> taskList, String taskName)	是	通过map方法分发子任务列表
public ProcessResult process(JobContext context) throws Exception	是	执行子任务的具体业务实现，通过JobContext可以拿到子任务的信息
public ProcessResult

关注