【最佳实践】ETL 同步策略

本文探讨了ETL过程中的全量同步和增量同步策略。全量同步在数据初始化时常见,当数据量大时可能对数据库造成压力,可以考虑通过数据库日志抽取以减轻负担。对于非结构化数据,全量同步相对简单。增量同步适用于大规模数据,推荐使用数据库日志抽取,如Oracle的OGG和开源CDC技术。在大数据平台中,通常采用全外连接和数据覆盖来处理增量数据,而非update操作。
摘要由CSDN通过智能技术生成

全量同步

数据初始化装载的时候,一定使用的是全量同步的方式。

全量同步数据时,如果数据量过大,会导致 ETL 流程非常慢,甚至周期会长达几个月。对于结构化数据,常用工具采用的是 JDBC 的方式直接连接到数据库进行抽取,所以会对数据库端带来极大的负载和压力,降低数据库端的稳定性。当然 JDBC 方案如果可行,那它是最简单的方式。如果存在风险,或者周期过长,可以采用抽取数据库日志的方式,这种架构需要数据库开放相应的功能,并且使用特定工具来进行;但它的抽取速度极快,而且不会对数据库端带来压力;如 Oracle 采用的是 OGG 方式,而 MySQL、SQL Server 等使用 CDC 方式。

对于非结构化、半结构化数据,因为本身并没有结构化数据复杂,所以全量同步会非常容易,依靠抽取工具自带的功能即可完成快速初始化状态工作。

除了第一次数据装载,之后每日的数据更新推荐使用增量同步方式。但在实际场景中,因为业务、技术原因,每天给到的数据只能是当日全量的数据,那当然也可以选择全量的方式对数据进行更新。在这种方式中,新的全量数据可以直接覆盖掉历史数据;如果担心数据丢失的话,可以创建时间分区,每天保存最新的全量版本,保留较短周期。虽然全量更新带来了计算量的增加,但相对于增量技术,它是最容易实现的一种方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桥路丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值