DataX使用说明
1.DataX介绍
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
也就是数据库的数据同步工具,免费版没有web页面,需在控制台进行操作
2.DataX下载
DataX 下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
DataX 快速启动地址:https://github.com/alibaba/DataX/blob/master/userGuid.md
DataX github地址:https://github.com/alibaba/DataX
下载请点击第一个地址下载,快速使用可以选择不看,下方会详细讲解
3.DataX使用
3.1 环境
- JDK1.8
- python 2.6.*(推荐)python3也可运行
windows或者macos安装好适配自己的环境(这里就自行百度啦)
3.2 解压
DataX下载完后,是一个datax.tat.gz的包,解压它,得到datax文件夹
进入datax
- bin:程序的执行目录,里面的data.py是控制台执行该程序的启动文件
- log:执行后的日志,每执行一次生成一个日志文件,可以清楚的看到报错信息
- plugin:reader和writer插件,比如reader里的mysqlreader为mysql的读取插件
3.3 使用
1.数据源文档(gitHub加载较慢,用流量看github稍微快一些)
类型 | 数据源 | Reader(读) | Writer(写) | 文档 |
---|---|---|---|---|
RDBMS 关系型数据库 | MySQL | √ | √ | 读 、写 |
Oracle | √ | √ | 读 、写 | |
OceanBase | √ | √ | 读 、写 | |
SQLServer | √ | √ | 读 、写 | |
PostgreSQL | √ | √ | 读 、写 | |
DRDS | √ | √ | 读 、写 | |
通用RDBMS(支持所有关系型数据库) | √ | √ | 读 、写 | |
阿里云数仓数据存储 | ODPS | √ | √ | 读 、写 |
ADS | √ | 写 | ||
OSS | √ | √ | 读 、写 | |
OCS | √ | √ | 读 、写 | |
NoSQL数据存储 | OTS | √ | √ | 读 、写 |
Hbase0.94 | √ | √ | 读 、写 | |
Hbase1.1 | √ | √ | 读 、写 | |
Phoenix4.x | √ | √ | 读 、写 | |
Phoenix5.x | √ | √ | 读 、写 | |
MongoDB | √ | √ | 读 、写 | |
Hive | √ | √ | 读 、写 | |
Cassandra | √ | √ | 读 、写 | |
无结构化数据存储 | TxtFile | √ | √ | 读 、写 |
FTP | √ | √ | 读 、写 | |
HDFS | √ | √ | 读 、写 | |
Elasticsearch | √ | 写 | ||
时间序列数据库 | OpenTSDB | √ | 读 | |
TSDB | √ | √ | 读 、写 |
2.配置json文件
使用dataX很简单,只需要配置一个json文件即可,配置内容大致如下:
- 配置需要读取的数据源
- 配置需要存储的数据源
- 配置线程数
而该json文件的空模板datax也提供给我们了,使用如下命令获取(首先进入datax/bin/下):
python datax.py -r {
读取数据库的插件名} -w