数据迁移(同步)-datx

本期介绍数据迁移工具-datax的使用。

1.安装

datax是阿里开源的数据同步工具,常见于大数据应用。之前我们项目选型为Sqoop,但是很遗憾该工具和eureka一样早已停止维护了,所以选择使用datax。

https://github.com/alibaba/DataX (推荐去GitHub上看一看,因为有很多资料可以供你更全面的了解DataX)

底部有连接可以直接下载 :下载后直接安装即可,该工具安装甚是简单。

https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz

解压至你想指定的目录下:

tar -zxvf  /home/hadoop/data.tar.gz  -C /export/server/
 

2.目录

解压后我们先看一下其目录结构

2.1 、进入bin目录

其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py

可以看出是python脚本文件,想要执行任务的时候就是用datax.py文件来执行

2.2 、进入config目录

该目录有两个文件,core.json和logback.xml是日志

2.3 、进入job目录

该目录只有一个名为job.json文件,是一个任务脚本

把postgresql数据库写入hdfs中的JSON脚本就是放在该目录

--查看该文件内容:就是一个大的JSON串

2.4、进入plugin目录,里面有各种的数据源依赖

----分为两大项,见名知意就是读和写

----可以看到reader目录下有各种数据源,其目录下就是对应的jar包和相关配置文件和模板

3.运行DataX的自检脚本

此时了解差不多了,我们要运行自建脚本。

1.cd /DATA_HOME/bin  ---先进入datax的bin目录下

2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本

DATA_HOME:为你自己安装的目录

job:为datax下的job任务目录

job.json:为任务脚本

提示:datax依赖python环境,若是没有安装python需要安装,使用如下命令,不多赘述 yum install -y python

--运行后查看打印的信息内容

最后会打印出具体的任务信息,该自检脚本数据为10万条。此时你就正常使用DataX可以了

注意:

如果你想要写job任务但是不知道如何写JSON脚本,可以使用 进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter

-r :reader的缩写,后跟你想要操作的数据源

-w:writer的缩写,同上

该命令可以给你一个模板供你参考

该模板详细介绍:

注意!!!

如果你不知道怎么查看对应的JSON模板,就需要去官方文档中查看。

github.com/alibaba/DataX

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值