DataX是阿里开源的一款兼容多源异构数据库/数据存储系统的离线数据同步工具,以框架+插件的形式开发,兼容海量数据库和存储系统。
DataX github地址 : DataX github
DataX的 github 仓库已经讲的非常清楚了,具体如何使用参见 md 文件,说一说今天踩的各种坑
1. 自检案例报错
理论上自检案例报错这种情况极少出现(毕竟能开发DataX这种工具的组应该也还是相当牛逼的)。
环境:
Java : OpenJDK 11.0.18
Python: 2.7.18
OS: Ubuntu 18.04
MySQL : 5.7.35
直接下载安装包,通过filezilla上传到服务器,tar -zxvf 解压,运行自检命令
bin/datax.py job/job.json
报错无法运行,后来经过搜索得知,是解压后的dataX文件夹中,包含很多 “ ._ ” 为前缀的文件,这些文件干扰了datax.py的运行,因此,要将 dataX文件夹下,所有以 “._” 为前缀的文件都删除