目录
DataX3.0使用文档
DataX官方概述
设计理念
当前使用现状
DataX3.0框架设计
环境准备 :
安装
查看配置模版
脚本编辑
data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== 参数说明
执行命令:
注意
定时脚本
性能测试
DataX官方概述
DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
设计理念
为了解决异构数据源同步问题, DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
DataX3.0框架设计
环境准备 :
linux6.8
python自带的2.7
MySQL 5.7.1
安装
1.先下载: wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2.解压:tar -zxvf datax.tar.gz -C /usr/local/
3.授权: chmod -R 755 datax/*
4.进入目录# cd datax/
5.启动脚本:python datax.py …/job/job.json
若最终 展示如下 既可以开始写自己脚本进行使用
任务启动时刻 : 2019-05-17 02:40:26
任务结束时刻 : 2019-05-17 02:40:36
任务总计耗时 : 10s
任务平均流量 : 253.91KB/s
记录写入速度 : 10000rec/s
读出记录总数 : 100000
读写失败总数 : 0
查看配置模版
python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
示例:
$ cd {YOUR_DATAX_HOME}/bin
$ python datax.py -r streamreader -w streamwriter
DataX (UNKNOWN_DATAX_VERSION), From Alibaba !
Copyright © 2010-2015, Alibaba Group. All Rights Reserved.
Please refer to the streamreader document:
https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md
Please refer to the streamwriter document:
https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md
Please save the following configuration as a json file and use
python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
to run the job.
{
"job" : {
"content" : [
{
"reader" : {
"name" : "streamreader" ,
"parameter" : {
"column" : [],
"sliceRecordCount" : ""
}
},
"writer" : {
"name" : "streamwriter" ,
"parameter" : {
"encoding" : "" ,
"print" : true
}
}
}
],
"setting" : {
"speed" : {
"channel" : ""
}
}
}
}
脚本编辑
这样就可以进入job中编辑自己的同步表的json了
示例
{
"job"