34个ETL子系统-3:数据抽取系统

23 篇文章 0 订阅

数据抽取系统,就是从不同的数据源里抽取数据,并将其输入到ETL流程中。数据的抽取方式有两种:基于流的抽取和基于文件的抽取。这两种方式,从本质上讲,都是数据流。唯一有区别的地方,基于静态的文件时进行抽取时,数据源是不变的,当然,如果是要抽取日志文件,则源也是随时发生变化的。

     在数据的抽取实现过程中,需要重点考虑的是,当任务失败后,如何进行恢复。当数据源是静态时,重新启动作业即可。当数据源是动态时,例如抽取的是事务型的数据库,则源已发生变化。对这类的数据抽取,就非常困难。

    考虑到数据仓库,和OLTP的系统不同,另外,在线事务型的数据库,数据随时发生变化,直接将这种数据抽取到数据仓库,即使做到数据仓库和源系统完全的实时性一致,对进行分析也是没有任何意义。因此,将在线事务系统进行改造,重要的事务变动,都记录账单。例如,用户的有登录,则记录一条账单日志,用户登出时,再记录一条日志。用户的余额发生变化了,就要记录下变动了多少,最新余额是多少。这些账单日志,再用自增序列ID进行顺序化标记,就能做到增量的抽取,从而实现对在线业务系统的抽取。这些账单日志,如实反映了业务的变化,从这些日志中,能还原任意时刻的业务状态。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值