优化ETL:将之前使用的dataX->DolphinScheduler

参考文档:一篇文章搞懂数据仓库:常用ETL工具、方法_etl常用的三种工具介绍-CSDN博客

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。

tips:ETL的基本加载策略有

1 增量
有些表巨大,我们需要选择增量策略,新增delta数据需要和存量数据merge合并。
两种方法:
merge(一)


merge(二)
只有新增(full join。能拿更新表就拿更新表)


 

新增+删除
history-table Left join delet-table where delect-table.value is null == 表a
表a full join update-table (能拿update就拿update)


2 全量
每天一个全量表,也可一个hive天分区一个全量。

3 流式
使用kafka,消费mysql binlog日志到目标库,源表和目标库是1:1的镜像。

小编有话
无论是全量还是增量的方式,都会浪费多余的存储或通过计算去重,得到最新的全量数据。为解决这一问题,墙裂建议kafka的数据同步方案,源表变化一条,目标表消费一条,目标表数据始终是一份最新全量数据,且为实时同步的。 

ps.极端情况下可能会丢数,需要写几个监控监本(详见数据质量篇)和补数脚本即可~

DataX :是阿里巴巴集团内被广泛使用的离线数据同步工具/平台
实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能.

准备工作:

具体实现:后续慢慢补充

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值