DataX初步探索

最新推荐文章于 2024-05-18 13:31:35 发布

cgm625637391

最新推荐文章于 2024-05-18 13:31:35 发布

阅读量339

点赞数

本文链接：https://blog.csdn.net/cgm625637391/article/details/100211259

版权

DataX3.0框架设计

DataX框架，采用Framework + plugin架构构建。
1.将数据源读取抽象成为Reader插件
2.将数据源写入抽象成为Writer插件
3.并将Reader插件和Writer插件纳入到Framework中。

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer： Writer为数据写入模块，负责不断从Framework取数据，并将数据写入到目的端。
Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

DataX3.0插件体系

DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，
目前已支持的插件如下:

类型	数据源	Reader插件	Write插件
RDBMS关系型数据库	MySQL	是	是
	Oracle	是	是
	SQLServer	是	是
	PostgreSQL	是	是
	DRDS	是	是
	通用RDBMS	是	是
NoSQL数据存储	OTS	是	是
	Habse1.1	是	是
	MongoDB	是	是
	Hive	是	是
无结构化数据存储	TxtFile	是	是
	FTP	是	是
	HDFS	是	是
	Elasticsearch	否	是

DataX3.0核心架构

DataX 3.0 开源版本支持单机多线程模式完成同步作业运行，
下图是一个Job作业生命周期的时序图，从整体架构设计说明DataX各个模块相互关系。

核心模块介绍：
1.DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
2.DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
3.每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
4.DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

cgm625637391

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
DataX初步探索

DataX3.0框架设计DataX框架，采用Framework + plugin架构构建。1.将数据源读取抽象成为Reader插件2.将数据源写入抽象成为Writer插件3.并将Reader插件和Writer插件纳入到Framework中。Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。Writer： Writer为数据写入模块，负责...
复制链接

扫一扫