DataX启动流程源码解析(图)

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。
作为业内基本都会用到的数据同步工具,底层的执行逻辑还是值得我们学习的

核心代码从 com.alibaba.datax.core.Engine 的 main() 函数开始

Engine.entry() 执行流程

在这里插入图片描述

Engine.start(conf) 执行流程

在这里插入图片描述

container.start() 执行流程(核心部分)

在这里插入图片描述

split() 之后就是最核心的任务调度 schedule()

在这里插入图片描述

核心执行

核心执行就是在上述的第三点内部执行任务
首先每个 task 通过Configuration生成 TaskExecutor,初始化TaskExecutor的过程内部做了很多初始化的动作:

  1. 创建 Writer 和 Reader之前的Channel,目前内部实现就只有一个MemoryChannel,Channel底层的核心是ArrayBlockingQueue,Writer往queue中写数据,Reader往queue中读数据。所以才会要求Reader和Writer task数量是1 : 1
  2. 生成 writerRunner 和 readerRunner,底层通过 writer 和reader的具体类型,通过类加载器生成对应的 TaskPlugin ,再封装成Thread可以执行的 Runner
  3. 启动 Writer、Reader,内部数据交互是通过上述讲的 Channel 里的 Queue

上述是核心的执行流程,内部还有很多很多细节可以去值得学习,比如调度怎么管理,还有queue消息怎么管理等等,有兴趣的同学可以再深入去看下代码, TKS ~

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值