先保证如下软件已经成功安装,系统 为 linux
- JDK(1.8以上,推荐1.8) ,查看版本 java -version
- Python(推荐Python2.7.X),不要装2.7以上的版本,否则到时命令执行会报错,查看当前版本 python -V
- Apache Maven 3.x (Compile DataX) ,查看版本 mvn -v
开始安装
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
tar -zxvf datax.tar.gz
进入dataX的目录,
测试脚本及环境运行情况:python bin/datax.py job/job.json
能够打印出如下的结果,说明已经成功安装
任务启动时刻 : 2018-08-31 11:24:00
任务结束时刻 : 2018-08-31 11:24:10
任务总计耗时 : 10s
任务平均流量 : 253.91KB/s
记录写入速度 : 10000rec/s
读出记录总数 : 100000
读写失败总数 : 0
如何使用dataX
dataX开发,就是写json配置文件,官网上有很多各种数据源的配置说明
官网
https://github.com/alibaba/DataX
写好后,进入dataX的目录,执行 python bin/datax.py 自己的json文件地址,就可以了
查看json文件的编写模板和说明,这里以mysql和hdfs为说明,要查询其它的,将-r 和 -w的名称换下
不过还有很多的参数没有显示出来 ,只是个大概参考
python bin/datax.py -r mysqlreader -w hdfswriter