python增量更新数据_datax增量更新

前言:

最近一直在做datax的增量更新,算是对datax有了一点新的认识吧。

因为公司需要以greenplum为核心来搭建自己的数仓平台,以满足业务上的多维快速查询(以前多维查询用到是kylin,但随着数据量的增加,kylin越来越难以满足我们的需求了)。

然而,greenplum的数据导入方面并不是很友好,通常,需要使用copy或者是gpfdist才能快速的往GP里面导入数据。

我们试了kettle来往GP导,但速度非常慢,原因是kettle导数据进入GP需要经过GP的master,是一条一条insert进去的。试了datax,同样是速度奇慢。

所以我们采用了别人开发好的datax版本,https://github.com/HashDataInc/DataX ,接下来我对datax增量更新所做的,都是在该版本的基础上来实现的。

datax简介

datax是阿里开源的一个etl工具,支持多种异构数据源。当然,datax适合用于离线数据的同步,不适合实时同步。具体的介绍,网上有不少博客,这里就不多介绍了

datax增量更新

思路:

第一种思路:datax的job是以一个json文件来描述的,本身提供了where条件,支持简单的增量更新

第二种思路:一旦我们的job中,增量抽取的数据比较复杂,比如,本身sql中需要多表关联或者有多个子查询,此时where条件已经无法满足。这种情况就是我接下来要讲的。

首先,为什么说如果抽取数据的sql比较复杂,where条件就无法满足

以mysqlreader举例,datax支持普通配置和用户自定义配置两种

普通配置需要用户配置Table、Column、Where的信息,而用户自定义配置则比较简单粗暴,只需要配置querySql信息,两者的模版如下:

普通配置:

{

"job": {

"content": [

{

"reader": {

"name": "mysqlreader",

"parameter": {

"column": [],

"connection": [

{

"jdbcUrl": [],

"table": []

}

],

"password": "",

"username": "",

"where": ""

}

},

"writer": {

"name": "hdfswriter",

"parameter": {

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值