ETL增量抽取方案

一、.ETL体系结构

    数据库--->抽取---> 转换--->加载--->目的数据源

二、ETL抽取方案

   1).全量抽取

        全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式,全量抽取比较简单。全量抽取一般只在系统初始化时使用,全量一次后,就要每天采用增量抽取。

   2).增量抽取

        增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或者修改的数据。在ETL使用中,增量抽取使用更加广泛。

        怎样获取变化的数据是增量抽取的关键。对于捕获方法的要求一般有:准确性,一致性,完整性,性能。

        准确性:能够将业务系统中的变化数据按一定的规则准确的捕获到。

        一致性:源表和目标表中数据的一致。不能有字段的不一致。

        完整性:要求源表中应该放入到目标表中的数据均被放入到目标表中。

        性能:因为一个公司晚上一般有大量的跑批,像我们公司,从凌晨12点开始,N个系统排队跑批,一般排到早上七八点钟。所以这就要求性能一定要优。不能对业务系统造成太大的压力,影响现有业务。

 

目前增量数据抽取中常用的捕获变化数据的方法有:

1.时间戳

    在源表上增加一个时间戳字段,当系统中更新修改表数据的时候,同时修改时间戳字段。当进行数据抽取的时候,通过时间戳来抽取增量数据。

     优点:性能比较好。ETL系统设计清晰,源数据抽取相对清楚简单

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
ETL抽取、转换、加载)是数据仓库中常用的数据处理过程。在ETL过程中,增量加载和全量加载是其中两种常见的方式。 增量加载是指只将新增或有变化的数据加载到目标数据仓库中。优点是可以减少数据处理的时间和资源消耗,提高数据加载效率。相比于全量加载,增量加载可以实现定期或实时更新数据,保证数据的实时性。此外,增量加载可以降低处理错误和重复操作的风险,节省存储空间。 然而,增量加载也存在一些缺点。首先,增量加载需要通过记录变更数据的方式进行,这涉及到数据的比对和识别,增加了数据处理的复杂性。其次,增量加载可能会导致数据不一致,例如在某个时间点进行数据分析时,新增数据可能还未加载到目标数据仓库中,从而影响分析结果的准确性。同时,由于增量加载只针对变更的数据,若需要获取完整的历史数据,则需要额外的处理。 相比之下,全量加载是将所有数据都重新加载到目标数据仓库中。全量加载的优点是可以保证数据的一致性和完整性,不会遗漏任何数据。此外,全量加载也更加简单,不需要进行数据比对和识别,减少了处理逻辑的复杂性。 然而,全量加载的缺点在于它需要处理所有数据,无论是否有变化,这会导致较长的处理时间和资源消耗。同时,全量加载无法实现数据的实时更新,只能在特定时间点进行数据加载和更新。 根据实际需求,增量加载和全量加载可以结合使用。在数据需求较为实时并能容忍一定的数据延迟时,可以选择增量加载;而在对数据一致性和完整性要求较高的场景下,选择全量加载更为适合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值