数据迁移（同步）-datx

长久风清扬

于 2024-07-22 10:24:39 发布

阅读量178

点赞数 9

分类专栏： Datax 文章标签： big data 大数据后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Russell_b/article/details/140601930

版权

Datax 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本期介绍数据迁移工具-datax的使用。

1.安装

datax是阿里开源的数据同步工具，常见于大数据应用。之前我们项目选型为Sqoop，但是很遗憾该工具和eureka一样早已停止维护了，所以选择使用datax。

https://github.com/alibaba/DataX （推荐去GitHub上看一看，因为有很多资料可以供你更全面的了解DataX）

底部有连接可以直接下载：下载后直接安装即可，该工具安装甚是简单。

https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202303/datax.tar.gz

解压至你想指定的目录下：

tar -zxvf /home/hadoop/data.tar.gz -C /export/server/

2.目录

解压后我们先看一下其目录结构

2.1 、进入bin目录

其中bin目录下有三个文件分别为datax.py、dxprof.py 、perftrace.py

可以看出是python脚本文件，想要执行任务的时候就是用datax.py文件来执行

2.2 、进入config目录

该目录有两个文件，core.json和logback.xml是日志

2.3 、进入job目录

该目录只有一个名为job.json文件，是一个任务脚本

把postgresql数据库写入hdfs中的JSON脚本就是放在该目录

--查看该文件内容：就是一个大的JSON串

2.4、进入plugin目录，里面有各种的数据源依赖

----分为两大项，见名知意就是读和写

----可以看到reader目录下有各种数据源，其目录下就是对应的jar包和相关配置文件和模板

3.运行DataX的自检脚本

此时了解差不多了，我们要运行自建脚本。

1.cd /DATA_HOME/bin ---先进入datax的bin目录下

2.python datax.py /DATA_HOME/job/job.json ---运行自检脚本

DATA_HOME：为你自己安装的目录

job：为datax下的job任务目录

job.json：为任务脚本

提示：datax依赖python环境，若是没有安装python需要安装,使用如下命令，不多赘述 yum install -y python

--运行后查看打印的信息内容

最后会打印出具体的任务信息，该自检脚本数据为10万条。此时你就正常使用DataX可以了

注意：

如果你想要写job任务但是不知道如何写JSON脚本，可以使用进入datax目录 bin/data.py -r postgresqlreader -w hdfswriter

-r :reader的缩写，后跟你想要操作的数据源

-w:writer的缩写，同上

该命令可以给你一个模板供你参考

该模板详细介绍：

注意！！！

如果你不知道怎么查看对应的JSON模板，就需要去官方文档中查看。

github.com/alibaba/DataX

长久风清扬

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数据迁移（同步）-datx

DataX的安装及使用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。