oracle 数据抽取 日志,基于快照日志的ORACLE数据表DELTA抽取算法

本文提出了一种对ORACLE数据表进行Delta抽取的算法.该算法是基于ORACLE数据库的快照日志结合XML文件而设计。它不仅能够减少数据仓库进行增量抽取时网络中数据的传输量,而且解决了ORACLE数据表增量抽取的跨平台性。

http://doc.docsou.com

基于快照日志的ORACLE数据表DELTA抽取算法

王雄,左杰

大连理工大学计算机应用技术系,辽宁大连 (116023)

E-mail:

摘 要:本文提出了一种对ORACLE数据表进行Delta抽取的算法.该算法是基于ORACLE数据库的快照日志结合XML文件而设计。它不仅能够减少数据仓库进行增量抽取时网络中数据的传输量,而且解决了ORACLE数据表增量抽取的跨平台性。

关键词:Delta;ORACLE;增量抽取;快照日志

1 引言

从早期开始,数据库系统一直作为数据管理的主要手段。但随着时间的不断推移,企业规模的不断增长,企业数据量也与日俱增。不仅如此,企业当中各部门的数据库间的关系变得越来越复杂,并且由于部门数据库间数据的相互抽取,使得企业数据库间形成了错综复杂的网状结构,人们称之为“蜘蛛网”。这种“蜘蛛网”数据库结构使得企业进行数据分析遇到了难题。随着计算机科学技术的发展和企业界的新需求,数据仓库应用而生。数据仓库的数据加载和一致性维护是数据仓库的核心技术之一。由于数据仓库的数据来源于不断变化的数据源,所以必须通过不断的刷新数据仓库中的数据表,才能保证数据仓库的数据的完整性、一致性。那么对于大量变化的源表数据,如何减少中间结果集大小,方便不同的数据仓库版本完成对源表数据的抽取成为影响数据仓库性能的关键[1].

2 Delta 抽取

多数的商业产品是直接从数据库抽取Deltas,我们概述一下四种常用的Delta抽取方法,详细内容请参照参考文献[2]。

a) 时间戳:该方法利用在源表当中增加一个时间戳字段来区分当前数据与历史数据,通过时间戳的比较,获取Delta数据并将其以文件或其它方式添入到数据仓库,从而达到数据的一致性。

b) 快照:该方法利用对当前数据表进行快照,然后将当前的快照与以前的数据表快照做比较,产生的Delta通过一定的方式传到数据仓库,从而实现数据的一致性。

c) 触发器:该方法利用对数据表添加触发器,将数据表的Delta数据添入到一个增量表当中,利用该增量表中的数据完成源表与数据仓库数据的一致性。

d) 日志抽取:该方法利用数据库的日志,采用数据表恢复的原理,在数据源处生成一个增量表,然后将该表添加到数据仓库,从而达到数据的一致性[3]。

3 本算法提出背景

在上面介绍的几种Delta抽取方法存在如下缺点:

a) 不管更新原记录的几个字段都需要将整条记录写入增量表,在更新少量字段的时候,这无疑会传输较多的数据;

b) 在不同的数据库平台上利用Delta需要根据本地数据仓库管理系统的不同进行相应的格式转换。

‐ 1 ‐

1-26-png_6_0_0_0_0_0_0_892.5_1263-202-0-14-202.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值