DW2.0下一代数据仓库架构_第20章 DW2.0与记录系统(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    DW2.0数据仓库中的大部分数据集的建立都是以操作型或旧的应用系统为基础的。写于很多年前并且很多情况下无文档记录,最初的数据
就是从这样的操作应用环境中进入企业环境,并且数据常以事务执行的副产品的形式进入交互区。旧操作环境中的要素有程序、报表、处理
器、文件和数据库。由于进入数据仓库中的大部分数据是在操作环境中产生的,所以要对它格外关注。最终获取的数据要尽可能地准确、及
时、完整,故需定义“记录源”数据系统,经确认的记录源系统是最佳的数据源。为DW2.0寻找最佳的数据源与数据质量之间有着非常重要的
联系。为了得到好的数据质量,人们所进行的最重要的一步是谨慎地选择记录系统。也就是说,如果根本没有选择或者选择不够正确的话,
就会反映比较差的数据质量。寻找最佳数据源应从旧操作环境中的应用开始。许多企业的操作型应用系统环境受其内部发生的事务处理的约
束。当企业的操作型事务处理发生时,尤其是有大量事务处理的时候,操作环境不是不能收到干扰的。在这种情况下,操作环境可能被认为
是娇气的,在业务周期高峰无法执行大量的批处理。问题是许多环境中,操作处理过程窗口都很大,往往要持续很长时间,远远超过上午8点
到下午5点这一时间段。某些时刻,旧环境中的交易处理会导致操作环境无法为其他任何请求提供服务。还有一些其他的与旧操作环境相关的
局限。在很多情况下,建立起来旧的操作环境后没有相应的文档,或是没有最新的文档。再返回去查找该操作型应用用于干什么用的可不是
件容易的事。另外,架构师必须准备好将数据从旧操作环境移入DW2.0的交互区和整合区。数据仓库架构师的工作是找出旧系统中的什么数据
是数据仓库的最佳数据源。不是所有操作环境中的数据都能进入DW2.0的交互区,操作环境中的不同部分也都可当做数据源。行操作环境中选
出来的数据是得到的最好的源数据,最好的源数据是:最精确的;最完整的;最新的;最可靠的;最易得到的。这一对交互区中最佳数据的
定义被称作源数据记录系统。当数据从整合区进入归档区时,记录系统会有所延伸。有时,两三个文件会被用作DW2.0交互区中同一数据单元
的数据源,在一些其他情况下,操作型应用系统环境中只有一个单独的数据源。
    在对来自操作环境的最佳源数据做了明确定义后,就需要在源数据到目标数据之间建立映射,这一过程被称为数据映射。有些情况下,
映射关系简单到只说明从一个地方开始到另一个地方结束。但在其他情况下,映射往往是更复杂的,在数据移动的同时可能还需要进行计算
不仅需要计算,还需要知道计算的日期和速率。简单的计算可能不是唯一必须的计算类型。某种计算中用到了多个不同的记录,计算往往并
不是复杂的,但其中的数据安排是非常有挑战性的。当有不止一个数据源时,会产生另一种形式的映射。这时,还需要用来确定哪种数据源
在哪种条件下最佳的逻辑。在一些情况下,找不到数据源时就需要提供一个默认值。数据映射的另一考虑是如何协调不同的编码值。有时,
源数据采用一种编码方式,而目标数据需要采用不同的编码方式。
    建立好映射后,交互区的数据增长就开始了。数据映射是ETL过程的必要输入。

其他记录系统
    另外一个记录系统有用的地方是数据集市的创建。数据集市能够从企业数据仓库环境中众多不同的源抽取得到,例如DW2.0数据仓库的交
互区、整合区、近线区以及归档区等。所有这些数据集市抽取其数据的地方称作对数据集市的记录系统。

总结:
    数据仓库包含数据源和数据目标。数据源——来自交互区或来自外部旧的应用--被称作记录系统,记录系统是对最佳数据源的定义。最
佳数据源时那些完整、准确、实时的数据。高质量的数据能够使记录系统更好。记录系统的重要性有多方面原因,它对于想要将记录系统产
生的映射用于提高目标数据的开发人员而言很重要,更重要的是,终端用户分析师需要将记录系统作为分析过程的一部分加以理解。记录系
统是环境中数据整合的一个主要贡献者。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1310742/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1310742/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值