DataX3.0简介
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
本次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。
![12e0c2dfccbc97ea210082ff39cb6015.png](https://i-blog.csdnimg.cn/blog_migrate/6a7de2bf1748f8a045056032fc81057e.jpeg)
DataX3.0概览
设计理念 与 框架设计
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
- Reader:为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
- Writer: 为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
- Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
![6fc5ea7cf44e30c349baaf9a3c54f3a8.png](https://i-blog.csdnimg.cn/blog_migrate/13565f31828c731e6590ad5076b00b81.jpeg)
框架设计
DataX3.0 插件体系
DataX3.0 目前支持数据如下:
![70c1f82a08a795fca7a5a262db343c7e.png](https://i-blog.csdnimg.cn/blog_migrate/1495993a08ad29253811ac8d3ae1ab6e.jpeg)
DataX3.0 的优势
- 精准的速度控制
- 强劲的同步性能
- 极简的使用体验
实现步骤
先说一下需求:
我们有一台测试的mysql数据库上有 cms和appdata 两个库,这两个库里面都有user_msg 这个表,现在需要把appdata 下面的us