datax 高级_Datax3.0使用说明

最新推荐文章于 2024-07-04 01:42:30 发布

weixin_39893205

最新推荐文章于 2024-07-04 01:42:30 发布

阅读量1k

点赞数

文章标签： datax 高级

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39893205/article/details/111540052

版权

DataX3.0是一款强大的异构数据源离线同步工具，支持MySQL、Oracle、HDFS等多种数据源之间的同步。其采用Framework+plugin架构，包括Reader、Writer和Framework三个核心部分。DataX3.0的Job模块负责任务管理和切分，调度策略依据并发数和任务量。安装部署涉及Linux、JDK 1.8和Python 2.7.5。提供丰富的Reader和Writer插件，如mysqlreader、hdfswriter，并通过json配置文件进行任务设定。本文还提供了DataX3.0的安装步骤、配置文件模板及使用示例。

摘要由CSDN通过智能技术生成

一、datax3.0介绍

1、DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2、DataX3.0框架设计

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

1. Reader：数据采集模块，负责采集数据源的数据，将数据发送给Framework。

2. Writer：数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

3. Framework：用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

3、DataX3.0核心架构

1. 核心模块介绍：

- DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。

- DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。

- 切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。

- 每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。

- DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

2. DataX调度流程：

举例来说，用户提交了一个DataX作业，并且配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。DataX的调度决策思路是：

- DataXJob根据分库分表切分成了100个Task。

- 根据20个并发，DataX计算共需要分配4个TaskGroup。

- 4个TaskGroup平分切分好的100个Task，每一个TaskGroup负责以5个并发共计运行25个Task。

二、Datax3.0安装部署

1、环境准备

Linux

jdk 1.8

python 2.7.5(datax是由python2开发的)

2、datax下载地址

https://github.com/alibaba/DataX?spm=a2c4e.11153940.blogcont59373.11.7a684c4fvubOe1

查看安装成功：在bin目录下执行 python datax.py ../job/job.json

3、查看配置文件

在bin目录下已经给出了样例配置，但不同的数据源配置文件不一样。通过命令查看配置模板

# python datax.py -r {YO

最低0.47元/天解锁文章

weixin_39893205

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。