DataX使用说明

DataX使用说明

1.DataX介绍

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

也就是数据库的数据同步工具,免费版没有web页面,需在控制台进行操作

2.DataX下载

DataX 下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

DataX 快速启动地址:https://github.com/alibaba/DataX/blob/master/userGuid.md

DataX github地址:https://github.com/alibaba/DataX

下载请点击第一个地址下载,快速使用可以选择不看,下方会详细讲解

3.DataX使用

3.1 环境

  • JDK1.8
  • python 2.6.*(推荐)python3也可运行

windows或者macos安装好适配自己的环境(这里就自行百度啦)

3.2 解压

DataX下载完后,是一个datax.tat.gz的包,解压它,得到datax文件夹

image-20211108091331924

进入datax

image-20211108102205993

  • bin:程序的执行目录,里面的data.py是控制台执行该程序的启动文件
  • log:执行后的日志,每执行一次生成一个日志文件,可以清楚的看到报错信息
  • plugin:reader和writer插件,比如reader里的mysqlreader为mysql的读取插件

3.3 使用

1.数据源文档(gitHub加载较慢,用流量看github稍微快一些)

类型 数据源 Reader(读) Writer(写) 文档
RDBMS 关系型数据库 MySQL
Oracle
OceanBase
SQLServer
PostgreSQL
DRDS
通用RDBMS(支持所有关系型数据库)
阿里云数仓数据存储 ODPS
ADS
OSS
OCS
NoSQL数据存储 OTS
Hbase0.94
Hbase1.1
Phoenix4.x
Phoenix5.x
MongoDB
Hive
Cassandra
无结构化数据存储 TxtFile
FTP
HDFS
Elasticsearch
时间序列数据库 OpenTSDB
TSDB

2.配置json文件

使用dataX很简单,只需要配置一个json文件即可,配置内容大致如下:

  • 配置需要读取的数据源
  • 配置需要存储的数据源
  • 配置线程数

而该json文件的空模板datax也提供给我们了,使用如下命令获取(首先进入datax/bin/下):

python datax.py -r {
   读取数据库的插件名} -w 
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值