Datax执行流程，优缺点

最新推荐文章于 2024-08-01 16:11:59 发布

吃素的哈士奇

最新推荐文章于 2024-08-01 16:11:59 发布

阅读量755

点赞数

分类专栏： DATAX 文章标签：大数据

原文链接：https://zhuanlan.zhihu.com/p/81817787

版权

DATAX 专栏收录该内容

9 篇文章 2 订阅

订阅专栏

Datax执行流程，优缺点

执行流程
DataX和sqoop的比较
DataX的优点总结

执行流程

1、解析配置，包括job.json、core.json、plugin.json三个配置

2、设置jobId到configuration当中

3、启动Engine，通过Engine.start()进入启动程序

4、设置RUNTIME_MODE到configuration当中

5、通过JobContainer的start()方法启动

6、依次执行job的preHandler()、init()、prepare()、split()、schedule()、- post()、postHandle()等方法。

7、init()方法涉及到根据configuration来初始化reader和writer插件，这里涉及到jar包热加载以及调用插件init()操作方法，同时设置reader和writer的configuration信息

8、prepare()方法涉及到初始化reader和writer插件的初始化，通过调用插件的prepare()方法实现，每个插件都有自己的jarLoader，通过集成URLClassloader实现而来

9、split()方法通过adjustChannelNumber()方法调整channel个数，同时执行reader和writer最细粒度的切分，需要注意的是，writer的切分结果要参照reader的切分结果，达到切分后数目相等，才能满足1：1的通道模型

10、channel的计数主要是根据byte和record的限速来实现的(如果自己没有设置了channel的个数)，在split()的函数中第一步就是计算channel的大小

11、split()方法reader插件会根据channel的值进行拆分，但是有些reader插件可能不会参考channel的值，writer插件会完全根据reader的插件1:1进行返回

12、split()方法内部的mergeReaderAndWriterTaskConfigs()负责合并reader、writer、以及transformer三者关系，生成task的配置，并且重写job.content的配置

13、schedule()方法根据split()拆分生成的task配置分配生成taskGroup对象，根据task的数量和单个taskGroup支持的task数量进行配置，两者相除就可以得出taskGroup的数量14、schdule()内部通过AbstractScheduler的schedule()执行，继续执行startAllTaskGroup()方法创建所有的TaskGroupContainer组织相关的task，TaskGroupContainerRunner负责运行TaskGroupContainer执行分配的task。

15、taskGroupContainerExecutorService启动固定的线程池用以执行TaskGroupContainerRunner对象，TaskGroupContainerRunner的run()方法调用taskGroupContainer.start()方法，针对每个channel创建一个TaskExecutor，通过taskExecutor.doStart()启动任务。

DataX和sqoop的比较

在这里插入图片描述
我们公司用的是sqoop，针对自身总结的缺点：

1.由于mysql的表结构变更，引起的数据抽取失败。（目前添加监控，自动更改还需要开发）

2.抽取速度有待提高，对于大表，指定多个map，可能会导致数据重复，需要单独做处理。

3.不支持mongoDB

4.启动的速度比较慢

在测试DataX中发现的问题：

1.目前公司表中基本上没有自增主键，对于数据量大的表（目前数据量还有待测试），抽取速度慢（6千万的表7116rec/s，两千万的速度在7902rec/s,1千万的表在19307rec/s 左右），如果有自增主键或者整型的索引字段，速度是56716rec/s ，使用uuid生成的主键，会存在主键切分不均匀现象（可以修改源码）。

2.目前开源版本只支持单机模式，需要依赖调度系统（在每个节点上部署客户端）

3.不支持自动创建表和分区，写入的hdfs路径必须存在（可以后期修改源代码，或者使用脚本生成）

4.生成配置文件比较繁琐（每张表需要生成一张配置文件，可以使用代码生成）

DataX的优点总结

1.除比较大的表之外，速度明显比sqoop快（表数据量3000万分界点并且表没有自增的整型主键，前面是sqoop 22:27 - 35:58 一共751s,后面是指定5个channel时间162s，第三个是一个channel时间是471s，大表sqoop也比较慢，使用多个map，然后去重，分为两个阶段）。
在这里插入图片描述

2.Datax的速度可以配置，可以根据我们的实际情况控制
在这里插入图片描述

3.日志相比于sqoop比较完善和人性化。

4.对于脏数据的处理

①在大量数据的传输过程中，必定会由于各种原因导致很多数据传输报错(比如类型转换错误)，这种数据DataX认为就是脏数据。DataX目前可以实现脏数据精确过滤、识别、采集、展示，提供多种的脏数据处理模式。

②Job支持用户对于脏数据的自定义监控和告警，包括对脏数据最大记录数阈值（record值）或者脏数据占比阈值（percentage值），当Job传输过程出现的脏数据大于用户指定的数量/百分比，DataX Job报错退出。

③图中的配置的意思是当脏数据大于10条，或者脏数据比例达到0.05%，任务就会报错
在这里插入图片描述

5.健壮的容错机制：DataX作业是极易受外部因素的干扰，网络闪断、数据源不稳定等因素很容易让同步到一半的作业报错停止。因此稳定性是DataX的基本要求，在DataX 3.0的设计中，重点完善了框架和插件的稳定性。
在这里插入图片描述

6.丰富的数据转换功能

DataX作为一个服务于大数据的ETL工具，除了提供数据快照搬迁功能之外，还提供了丰富数据转换的功能，让数据在传输过程中可以轻松完成数据脱敏，补全，过滤等数据转换功能，另外还提供了自动groovy函数，让用户自定义转换函数。

侵删

吃素的哈士奇

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datax执行流程，优缺点

1、解析配置，包括job.json、core.json、plugin.json三个配置2、设置jobId到configuration当中3、启动Engine，通过Engine.start()进入启动程序4、设置RUNTIME_MODE到configuration当中5、通过JobContainer的start()方法启动6、依次执行job的preHandler()、init()、prepare()、split()、schedule()、- post()、postHandle()等方法。7、ini
复制链接

扫一扫

专栏目录