dataX使用指南

DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
DataXgit地址

安装

直接下载DataX工具包:DataX下载地址
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
shell cd {YOUR_DATAX_HOME}/bin python datax.py {YOUR_JOB.json}
自检脚本:
python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json

使用

1.生成job.json的示例文件

cd  {YOUR_DATAX_HOME}/bin
python datax.py -r mysqlreader -w postgresqlwriter

会生成实例文件

2.将实例文件复制到.json文件里。修改里面的配置项,实例json文件如下所示:

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "mysqlreader",
          "parameter": {
            "column": ["id" , "fid" , "name" , "type" , "ab"],
            "connection": [
              {
                "jdbcUrl": ["jdbc:mysql://192.168.0.111:3306/etl"],
                "table": ["district"]
              }
            ],
            "password": "root",
            "username": "root",
            "where": ""
          }
        },
        "writer": {
          "name": "postgresqlwriter",
          "parameter": {
            "column": ["id" , "fid" , "name" , "type" , "ab"],
            "connection": [
              {
                "jdbcUrl": "jdbc:postgresql://192.168.0.111:5432/etl",
                "table": ["district"]
              }
            ],
            "password": "root",
            "postSql": [],
            "preSql": [],
            "username": "postgres"
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
      }
    }
  }
}

须知

  1. DataX没法同步表结构,因此在同步数据时,必须保证writer里的表已经存在。
  2. column字段最好不要用“*”代替,保证需要同步什么字段就写什么字段。WARN:您的配置文件中的列配置存在一定的风险. 因为您未配置读取数据库表的列,当您的表字段个数、类型有变动时,可能影响任务正确性甚至会运行出错。
  3. 通常不建议写入数据库时,通道个数 > 32
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DataX的使用方式包括以下几个步骤: 1. 下载和安装DataX 可以从DataX的官方GitHub仓库中下载最新版本的DataX,并按照官方文档进行安装。安装完成后,可以使用DataX的命令行工具进行数据交换任务的配置和执行。 2. 配置数据源和目标 DataX需要根据数据源和目标的不同配置不同的插件。可以在DataX的插件目录中找到对应的插件,并按照官方文档进行配置。例如,如果需要从MySQL数据库中读取数据并写入到Hive表中,可以使用MySQLReader和HiveWriter插件进行配置。 3. 编写数据交换任务的配置文件 可以使用DataX的配置文件格式,编写数据交换任务的配置文件。配置文件中需要指定数据源、目标、数据表、字段映射关系等信息。可以根据官方文档提供的示例进行配置。 4. 执行数据交换任务 可以使用DataX的命令行工具执行数据交换任务。执行命令的格式为: ``` python datax.py job/job.json ``` 其中,`job.json`为数据交换任务的配置文件。执行命令后,DataX会自动读取配置文件,并进行数据交换操作。可以使用DataX提供的日志和报告功能进行监控和报告。 总之,使用DataX进行数据交换需要进行插件配置、任务配置和命令行执行等操作。虽然有些繁琐,但是DataX提供了丰富的插件和扩展接口,可以满足不同的数据交换需求。同时,DataX还提供了完善的监控和报告功能,可以帮助用户及时发现和处理数据交换中的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值