DataX实现多表的增量同步postgresql到sqlserver

之前公司交给我一个需求:需要从postgresql数据库的多张表同步到sqlsersver数据库的表中,这次利用阿里云开发的DataX对异构数据库之间同步数据

DataX官网介绍:https://github.com/alibaba/DataX/blob/master/introduction.md

DataX安装使用:https://github.com/alibaba/DataX/blob/master/userGuid.md

简单总结下前置工作:

1.下载DataX工具包,这个是官方直接编译好能用的;

2.下载安装Python 2.6.X;

3. 打开命令窗口,切换到 bin 目录下: cd DataX/target/datax/datax/bin;

4. 在 ./datax/job 下创建 test.json,一张表对应一个json文件,这个配置是全量同步的;

5. 启动DataX命令:python datax.py ./job/test.json

{
  "job": {
    "setting": {
      "speed": {
        "channel": 3
      },
      "errorLimit": {
        "record": 0,
        "percentage": 0.02
      }
    },
    "content": [
      {
        "reader": {
          "name": "postgresqlreader",
          "parameter": {
            "username": "postgres",
            "password": "root",
			"column": ["id","token","origin_module","is_sso_token","cust_no","sign_time","is_valid"],
			"where": "",
            "connection": [
              {
                "table": [
                  "public.auth_token"],
                "jdbcUrl": [
                  "jdbc:postgresql://localhost:5432/cloud_finance"
                ]
              }
            ]
          }
        },
        "writer": {
          "name": "sqlserverwriter",
          "parameter": {
            "username": "sa",
            "password": "root",
            "column": ["id","token","origin_module","is_sso_token","cust_no","sign_time","is_valid"],
            "connection": [
              {
                "table": [
                  "dbo.auth_token"],
                "jdbcUrl": "jdbc:sqlserver://localhost:1433;DatabaseName=cloud_finance"
              }
            ]
          }
        }
      }
    ]
  }
}

增量同步操作步骤:

1.实现增量同步需要在表中增加一个时间戳字段,如created_time,在同步配置文件中,通过where条件,根据时间戳字段筛选当前时间向前一段时间内的增量数据。

 json文件中,${start_time} 和 ${end_time}为调用datax.py时传入的参数。这次的json例子是从sqlserver同步数据到pgsql,表的时间字段类型需要转换一下。

{
    "job":{
        "content":[
            {
				"reader": {
                    "name": "sqlserverreader",
                    "parameter": {
                        "username": "sa",
                        "password": "admin",
			"where":"DATEDIFF(SS,'1970-1-1 08:00:00',created_time) >= ${start_time} and DATEDIFF(SS,'1970-1-1 08:00:00',created_time) < ${end_time}",
                    "column": [
                           "id", "cust_no", "id_no", "mobile", "name", "user_type","created_time"
                        ],
                        
                        "connection": [
                            {
                                "table": [
                                    "test"
                                ],
                                "jdbcUrl": [
                                "jdbc:sqlserver://localhost:1433;DatabaseName=cloud_finance"
                                ]
                            }
                        ]
                    }
                },
				  "writer": {
                    "name": "postgresqlwriter",
                    "parameter": {
                        "username": "postgres",
                        "password": "admin",
                        "column": [
                            "id", "cust_no", "id_no", "mobile", "name", "user_type", "created_time"
                        ],
                       
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:postgresql://localhost:5432/cloud_finance",
                                "table": [
                                    "test"
                                ]
                            }
                        ]
                    }
                }
            }
        ],
        "setting":{
            "speed":{
                "channel":"5"
            }
        }
    }
}

2. 多表增量同步实现,创建一个脚本 task.sh

#!/bin/bash
source /etc/profile
# 截至时间设置为当前时间戳
end_time=$(date +%s)
# 开始时间设置为60s前时间戳
start_time=$(($end_time - 60))
echo "同步开始时间:", $start_time, "<br>\n";
echo "同步结束时间:", $end_time, "<br>\n";
python ./bin/datax.py ./job/test.json -p "-Dstart_time=$start_time -Dend_time=$end_time"
echo "test表同步结束";
python ./bin/datax.py ./job/auth_token.json -p "-Dstart_time=$start_time -Dend_time=$end_time"
echo "auth_token表同步结束";

3.设置定时任务:crontab -e 进入当前用户的工作表编辑定时器,设置每分钟执行一次

*/1 * * * * /data/app/datax/task.sh

参考链接:https://www.lhtry.net/Blog/Detail/29

4.有些表是没有时间字段的,where配置无法满足,可以通过querySql配置型来自定义筛选SQL。当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id

拓展:

Datax-web是DataX的操作界面工具,我们可通过页面选择数据源即可创建数据同步任务。参考链接:https://github.com/WeiYe-Jing/datax-web

 

 

 

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个简单的示例,演示如何使用DataX实现多表数据同步到一个JSON文件中。 假设我们有两个表,一个是用户信息表(user),一个是订单信息表(order),它们的结构如下: user表: | id | name | age | | ---- | ---- | ---- | | 1 | Tom | 20 | | 2 | Jack | 22 | | 3 | Mary | 21 | order表: | id | user_id | product | amount | | ---- | ------- | ------- | ------ | | 1 | 1 | iPhone | 1 | | 2 | 1 | iPad | 2 | | 3 | 2 | MacBook | 1 | 我们需要将这两个表的数据同步到一个JSON文件中,格式如下: ``` { "users": [ { "id": 1, "name": "Tom", "age": 20, "orders": [ { "id": 1, "product": "iPhone", "amount": 1 }, { "id": 2, "product": "iPad", "amount": 2 } ] }, { "id": 2, "name": "Jack", "age": 22, "orders": [ { "id": 3, "product": "MacBook", "amount": 1 } ] }, { "id": 3, "name": "Mary", "age": 21, "orders": [] } ] } ``` 其中,每个用户包含其基本信息和订单信息,如果用户没有订单,则其订单列表为空。 为了实现这个需求,我们可以使用DataX中的两个插件:MySQL Reader插件和JSON Writer插件。 首先,我们需要在DataX的配置文件中配置MySQL Reader插件,使用SQL语句从数据库中读取数据。配置文件示例如下: ``` { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "connection": [ { "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/test", "table": [ "user", "order" ], "username": "root", "password": "root" } ], "column": [ "user.id", "user.name", "user.age", "order.id", "order.product", "order.amount" ], "where": "", "splitPk": "", "encoding": "UTF-8" } }, "writer": null } ], "setting": { "speed": { "channel": 1 } } } } ``` 在该配置文件中,我们使用了MySQL Reader插件,从MySQL数据库中读取了user和order表的数据。为了方便后续处理,我们将两个表的数据列合并到了一起。 接下来,我们需要在配置文件中配置JSON Writer插件,将数据写入到JSON文件中。配置文件示例如下: ``` { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "connection": [ { "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/test", "table": [ "user", "order" ], "username": "root", "password": "root" } ], "column": [ "user.id", "user.name", "user.age", "order.id", "order.product", "order.amount" ], "where": "", "splitPk": "", "encoding": "UTF-8" } }, "writer": { "name": "jsonwriter", "parameter": { "path": "/data/users.json", "fileType": "NORMAL", "compress": "NONE", "encoding": "UTF-8", "dateFormat": "yyyy-MM-dd HH:mm:ss", "writeMode": "APPEND", "column": [ { "name": "id", "type": "LONG" }, { "name": "name", "type": "STRING" }, { "name": "age", "type": "LONG" }, { "name": "orders", "type": "ARRAY", "childColumn": [ { "name": "id", "type": "LONG" }, { "name": "product", "type": "STRING" }, { "name": "amount", "type": "LONG" } ] } ] } } } ], "setting": { "speed": { "channel": 1 } } } } ``` 在该配置文件中,我们使用了JSON Writer插件,将数据写入到了一个JSON文件中。我们将用户信息的id、name和age作为一级字段,将订单信息的id、product和amount作为二级字段,使用数组形式存储在orders字段中。 最后,我们使用DataX启动任务,即可将数据从MySQL数据库中读取,并写入到一个JSON文件中。 以上示例仅供参考,实际使用中需要根据具体需求进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值