Datax的配置及使用

最新推荐文章于 2024-10-31 14:47:04 发布

原创

最新推荐文章于 2024-10-31 14:47:04 发布 · 1w 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#datax #otter

Datax的配置及使用

1、 DataX3.0概览

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能

DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，具体详情DataX的GitHub地址

2、 DataX3.0的使用

2.1 准备工作
Java版本要求：jdk1.8及以上
参考链接：Linux下jdk环境配置及JDK版本升级
Python版本要求：2.7.X，DataX未更新至Python3
DataX下载：datax下载
当然你还可以去Github去下载源码进行编译，通过此种方式你可以自行选择你需要的配置进行打包，如只需要Mysql的，那么其他的相关支持你都不需要用到，也就不需要都打包，更轻量使用。与此同时，你还需要maven工具进行打包，在pom.Xml中删除你不需要的模块，再执行maven命令：mvn -U clean package assembly:assembly -Dmaven.test.skip=true，生成的文件在/target/datax/datax/下
确保上述步骤都通过后则继续往下看。

2.2 快速上手

2.2.1 构建一个测试数据表

表结构如表2-1所示。

表2-1 测试表结构