概览
datax是一个异构数据源离线同步工具,主要实现包括关系型数据库(MySQL、Oracle等)、MongoDB、Hive、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
DataX3.0框架设计
image
DataX采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,Reader从源数据库中读取数据转换成datax内部的数据格式,Writer从datax中把数据读出来并且转换成目的端的数据格式。
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
应用场景
通常是在服务暂停的情况下,短时间将一份数据从一个数据库迁移至其他不同类型的数据库。
优点:
1.提供了数据监控
2.丰富的数据转换功能,可以重新定制Reader,Writer插件实现数据脱敏,补全,过滤等数据转换功能
3.可以在配置文件中配置精确的速度控制
4.强劲的同步性能