前言:
最近一直在做datax的增量更新,算是对datax有了一点新的认识吧。
因为公司需要以greenplum为核心来搭建自己的数仓平台,以满足业务上的多维快速查询(以前多维查询用到是kylin,但随着数据量的增加,kylin越来越难以满足我们的需求了)。
然而,greenplum的数据导入方面并不是很友好,通常,需要使用copy或者是gpfdist才能快速的往GP里面导入数据。
我们试了kettle来往GP导,但速度非常慢,原因是kettle导数据进入GP需要经过GP的master,是一条一条insert进去的。试了datax,同样是速度奇慢。
所以我们采用了别人开发好的datax版本,https://github.com/HashDataInc/DataX ,接下来我对datax增量更新所做的,都是在该版本的基础上来实现的。
datax简介
datax是阿里开源的一个etl工具,支持多种异构数据源。当然,datax适合用于离线数据的同步,不适合实时同步。具体的介绍,网上有不少博客,这里就不多介绍了
datax增量更新
思路:
第一种思路:datax的job是以一个json文件来描述的,本身提供了where条件,支持简单的增量更新
第二种思路:一旦我们的job中,增量抽取的数据比较复杂,比如,本身sql中需要多表关联或者有多个子查询,此时where条件已经无法满足。这种情况就是我接下来要讲的。
首先,为什么说如果抽取数据的sql比较复杂,where条件就无法满足
以mysqlreader举例,datax支持普通配置和用户自定义配置两种
普通配置需要用户配置Table、Column、Where的信息,而用户自定义配置则比较简单粗暴,只需要配置querySql信息,两者的模版如下:
普通配置:
{
"job": {
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"column": [],
"connection": [
{
"jdbcUrl": [],
"table": []
}
],
"password": "",
"username": "",
"where": ""
}
},
"writer": {
"name": "hdfswriter",
"parameter": {