python增量更新数据_datax增量更新

weixin_39747755

于 2020-12-30 14:07:25 发布

阅读量1.3k

点赞数

文章标签： python增量更新数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39747755/article/details/112048244

版权

前言：

最近一直在做datax的增量更新，算是对datax有了一点新的认识吧。

因为公司需要以greenplum为核心来搭建自己的数仓平台，以满足业务上的多维快速查询(以前多维查询用到是kylin，但随着数据量的增加，kylin越来越难以满足我们的需求了)。

然而，greenplum的数据导入方面并不是很友好，通常，需要使用copy或者是gpfdist才能快速的往GP里面导入数据。

我们试了kettle来往GP导，但速度非常慢，原因是kettle导数据进入GP需要经过GP的master，是一条一条insert进去的。试了datax，同样是速度奇慢。

所以我们采用了别人开发好的datax版本，https://github.com/HashDataInc/DataX ，接下来我对datax增量更新所做的，都是在该版本的基础上来实现的。

datax简介

datax是阿里开源的一个etl工具，支持多种异构数据源。当然，datax适合用于离线数据的同步，不适合实时同步。具体的介绍，网上有不少博客，这里就不多介绍了

datax增量更新

思路：

第一种思路：datax的job是以一个json文件来描述的，本身提供了where条件，支持简单的增量更新

第二种思路：一旦我们的job中，增量抽取的数据比较复杂，比如，本身sql中需要多表关联或者有多个子查询，此时where条件已经无法满足。这种情况就是我接下来要讲的。

首先，为什么说如果抽取数据的sql比较复杂，where条件就无法满足

以mysqlreader举例，datax支持普通配置和用户自定义配置两种

普通配置需要用户配置Table、Column、Where的信息，而用户自定义配置则比较简单粗暴，只需要配置querySql信息，两者的模版如下：

普通配置：

{

"job": {

"content": [

{

"reader": {

"name": "mysqlreader",

"parameter": {

"column": [],

"connection": [

{

"jdbcUrl": [],

"table": []

}

],

"password": "",

"username": "",

"where": ""

}

},

"writer": {

"name": "hdfswriter",

"parameter": {

最低0.47元/天解锁文章

weixin_39747755

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python增量更新数据_datax增量更新

前言：最近一直在做datax的增量更新，算是对datax有了一点新的认识吧。因为公司需要以greenplum为核心来搭建自己的数仓平台，以满足业务上的多维快速查询(以前多维查询用到是kylin，但随着数据量的增加，kylin越来越难以满足我们的需求了)。然而，greenplum的数据导入方面并不是很友好，通常，需要使用copy或者是gpfdist才能快速的往GP里面导入数据。我们试了kettle来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。