DW2.0下一代数据仓库架构_第9章 监视DW2.0环境(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。
 
    DW2.0环境是复杂和动态的,它的各部分之间存在着复杂的联系。数据要从一个组件流向另一个组件,还要执行事务,并且还进行数据
转换等。在很多方面DW2.0环境是一个黑匣子。数据从一个地方进去,从另一个地方取出来,而在这之间发生了神秘的事情。不幸的是,如果
DW2.0环境被看做一个不透明的黑匣子,随着时间的进行,黑匣子中发生的事情会慢慢变得不顺利;数据会收集一些本不该收集的数据,事务
响应变得缓慢,数据会放错位置,甚至还有更坏的情况。因此DW2.0不应该像一个黑匣子,这样就需要周期性的查看以便确保DW2.0环境以
预先期望的方式运行。

监视DW2.0环境
    强烈推荐要对DW2.0环境进行定期的监视。至少,应该在黑匣子中插入一个听诊器以便发现什么正在运行。当DW2.0环境或它的某一部件
需要调整时,这些调整能提前而不是被动地去做。

事务监视
    事务监视发生在DW2.0的交互区。事物监视用来确保一个良好一致的响应时间。

数据质量监视
    DW2.0环境中需要的第二种监视是对数据质量的ETL监视。这种监视专用于核查通过DW2.0转换组件的数据的质量。如果低质量的数据被送
入DW2.0,那么至少需要通知分析师,使其也意识到这一点。

数据仓库监视
    数据仓库监视监控数据仓库中的数据,被用来多个不同的目的。但它主要的目的是测量数据的使用频率。从数据的使用频率可以确定任
一数据是否进入休眠期。对休眠数据的管理是DW2.0环境管理的一个最为重要的方面。

事务监视--响应时间
    事务监视的主要目的是确保良好一致的反映时间。不幸的是,系统运行的许多方面都会对系统性能产生影响。监视系统性能经常要将
响应时间作为一个参考,在2-3秒范围内的响应时间通常认为可以接受。也可能在一天当中存在一些时间段,在该时间段的响应时间有所延长
但是只要这些时间段比较短且并不频繁,响应时间增加得不是太长,那么这个系统就可以被认为是以一种令人满意的方式运行。通常可接受
的响应时间参数定义在服务水平协议中。
    事物监视的一些特性和特征包括:
    1、事物队列监视:事物队列监视在执行之前存储的地方。当系统繁忙时,事物会被挂起在事务队列中等待执行。如果系统繁忙,这种
       等待就会成为性能的一个最大障碍。
    2、应用监视:在电脑中处理事物的应用需要被监视。当一个事物被执行时,它要占用系统资源。这些系统资源用于正在执行的事物的代

       码,而这些资源所被使用的时间长度是系统吞吐量和性能的最重要的度量之一。
    3、事务记录监视:完成一个交易所需的记录数也会影响系统性能。一个单独的事务经常耗费许多资源。但是最能表现事务处理性能指标
       是事务执行所需的记录数。简单地说,需要较少记录的事务执行起来会比必须执行许多记录的事务快很多。

高峰期处理
    来自事务监视的一个重要的度量标准是系统在高峰期处理中对其所有资源的使用程度。在每个事务处理环境中,都有不活跃阶段和活跃
阶段。活跃阶段就是所谓的“高峰期”。只要有能力满足所有的处理,系统就会平稳运行。但是在高峰期,如果系统对资源的需求超出可用
资源,系统就会变慢,并且在绝大多数情况下会非常明显。因此,每一个组织都应该去监视需要耗费的所有可用资源的高峰期处理时的资源
使用程度。如果在高峰期的资源使用时稳定的,那么就没有必要去增加系统容量。如果当高峰期处理对资源需求持续增长,就需要增加更多
的系统容量。另一个典型的用于事务监视记录的重要参数是系统的增长率。可以随着时间被记录的系统增长的典型指标是系统中的事务数和
数据量。事物的数目是系统增长和容量消耗速率的一个良好指标。通过推测和设计一个系统处理的事务的数据,系统分析员就能确定什么
时候需要进行硬件升级。其目的是预测什么时候需要进行升级和确保在性能问题开始之前组织可以以主动的方式进行响应。一成不变的以被
动方式意味着组织将承受周期性的“瘫痪”。

ETL数据质量监视
    当数据从DW2.0的一个区流入另一个区,或数据最初进入系统时,ETL数据质量监视就会检查数据。ETL数据质量监视的目的是为了评价数
据被转化时数据的质量。ETL数据监视查看数据的很多方面,它将检查如下内容:
    1、数域:假设性别定义为:“M/F”,如果性别的数据以“MALE”的格式录入,那么ETL数据质量监视会将其记录为错误
    2、不匹配的外键:如果数据中存在对“John Hones”的引用,但顾客数据库中没有John Jones,那么便被认为是外键缺损或未匹配
    3、边界范围:顾客的正常年龄在15-80岁之间,如果进入系统的一个顾客年龄为234岁,这显然是一个年龄范围数据质量问题。
    4、空值:指定的每一个数据键都应该出现。如果数据输入时主键为空,那么需要被检测并报告。
    5、被损坏的特性:输入数据的值有明显的错误
    那么一旦检测到错误,该如何处理?
    1、丢弃这个数据,这通常是一糟糕的选择,因为:被丢弃的这条记录的其他部分可能非常好;需要一些更正方法。人工更正应该是最后
       的选择,耗费大量时间,严重拖延项目进度
    2、生成缺省值。这样做不正确的数据在系统中将不复存在。
    3、让坏的数据也进入系统,但将其标记为错误的。标记错误数据就是在警告终端用户这个数据存在问题。

数据仓库监视工具
    数据仓库监视是监视数据仓库中什么数据正在被使用和什么数据没有被使用的一个软件工具。如果一组数据相当长的时间没有被使用,
那么他们就可以被认定是“休眠的”。好的数据仓库监视应该设计为能够检测和报告休眠数据。
    数据仓库中数据监视的一般方式是通过截取提交给数据仓库系统的SQL代码。通过收集输入系统的SQL,分析人员就能确定在数据仓库中
什么数据正在被访问,什么数据没有被访问。通常,SQL是由“嗅探”通信线路来截取的。安排嗅探器的一个方法是把它安置在数据仓库计算
机外部或者数据仓库计算机的内部。通常在外部嗅探SQL更为有效。内部嗅探会产生巨大的开销,影响数据仓库性能。

休眠数据
    当数据进入休眠期时,它需要被植入备用存储器中。备用存储器比起高性能的硬盘存储来说要便宜的多。初次之外,休眠数据会阻塞高
性能硬盘存储的动脉。
    休眠数据是悄悄进入系统的。新建立的数据仓库中一般不包含大量的数据,因此也不会包含很多休眠数据。醉着数据仓库中数据量的增
长,休眠数据所占的比例上升。当数据仓库中存在非常多的数据时,相应也会有非常多的数据进入休眠状态。
    一个简单的选择是把休眠数据保留在数据仓库中。但是这样做成本较高,而且会大幅度降低系统性能。另一个选择是把休眠数据移入
近线区或者归档区。数据仓库监视用于报告什么时候数据进入休眠状态。

总结:
    在DW2.0中所需的三种监视:事务监视;数据质量监视;数据仓库监视。事物监视放置在交互区,并着重于事务响应时间和性能计划。
事物监视尤其关注在高峰处理期发生的数据仓库活动。事务监视需要检测工作量、队列长度和资源的利用情况。数据质量监视注重于监视当
数据从DW2.0一个区进入另外区时数域和数据范围。数据仓库监视主要关注DW2.0数据仓库的整合区并解决休眠数据。它观察数据并确定哪些
数据被使用,那些数据没有被使用。最好的数据仓库监视是那些在数据仓库DBMS外部运行的数据仓库监视。对于监视在数据仓库内部进行的
活动,SQL嗅探的使用是最不冒失且最不耗时的技术。

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1319660/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1319660/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值