一、DataX3.0介绍
官网地址:https://github.com/alibaba/DataX/blob/master/introduction.md
二、环境检查
- JDK(1.8以上,推荐1.8)
java -version
- Python(2或3都可以),推荐python2(python3运行datax.py会提示语法问题,需进行调整。调整方法见本文第四章节)
python -V
若提示"-bash: python: command not found"
1)找到系统自带的python,一般在/usr/bin目录下
find /usr/bin -name 'python*'
2)若有/usr/bin/python,可以通过 ln -sf /usr/bin/pythonX.X /usr/bin/python 建立软连接,也可以直接使用pythonX
三、下载、上传、解压
- 下载地址:https://github.com/alibaba/DataX/blob/master/userGuid.md
- 上传至/opt/DataX目录
- 解压
cd /opt/DataX/
tar -zxvf datax.tar.gz
四、运行自检脚本
若使用python3,需调整bin文件夹下的.py文件:
- print XXX 调整为 print(XXX)
- Exception, e 调整为 Exception as e
cd /opt/DataX/datax/bin
python3 datax.py ../job/job.json
启动仍然提示错误:
需要删除reader和writer目录中 隐藏的下划线文件。分别在reader和writer目录下执行:
ls -las
rm -rf ._*
五、实际运用
- 在/opt/DataX/datax/bin目录下执行语句,生成配置模板
python3 datax.py -r streamreader -w streamwriter
-
复制配置模板内容,保存为json文件
-
根据本文第一章节官网中的插件体系,调整json文件内容
-
上传json文件至/opt/DataX/datax/job目录,执行
cd /opt/DataX/datax/bin
python3 datax.py ../job/myJob.json