DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。
作为业内基本都会用到的数据同步工具,底层的执行逻辑还是值得我们学习的
核心代码从 com.alibaba.datax.core.Engine 的 main() 函数开始
Engine.entry() 执行流程
Engine.start(conf) 执行流程
container.start() 执行流程(核心部分)
split() 之后就是最核心的任务调度 schedule()
核心执行
核心执行就是在上述的第三点内部执行任务
首先每个 task 通过Configuration生成 TaskExecutor,初始化TaskExecutor的过程内部做了很多初始化的动作:
- 创建 Writer 和 Reader之前的Channel,目前内部实现就只有一个MemoryChannel,Channel底层的核心是ArrayBlockingQueue,Writer往queue中写数据,Reader往queue中读数据。所以才会要求Reader和Writer task数量是1 : 1
- 生成 writerRunner 和 readerRunner,底层通过 writer 和reader的具体类型,通过类加载器生成对应的 TaskPlugin ,再封装成Thread可以执行的 Runner
- 启动 Writer、Reader,内部数据交互是通过上述讲的 Channel 里的 Queue
上述是核心的执行流程,内部还有很多很多细节可以去值得学习,比如调度怎么管理,还有queue消息怎么管理等等,有兴趣的同学可以再深入去看下代码, TKS ~