DW2.0下一代数据仓库架构_第21章 多方面的话题(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    数据集市;
    监视DW2.0环境;
    将数据从一个数据集市移动到另一个数据集市;
    如何处理不合格的数据;
    在DW2.0中移动数据的速率;
    数据仓库基础设施建设;

数据集市
    数据集市的建立是为了方便那些以相同的方式查看数据的人。典型的数据集市是为不同部门建立的,自身拥有数据集市的典型部门有财

务部、销售、市场、以及会计等部门。DW2.0环境中任何一部分都可以用来产生一个数据集市,正常情况下是由DW2.0的整合区来为数据集市
提供数据,但DW2.0中的其他区也有可能向数据集市中添加数据。
    数据集市带来的便利是,DW2.0中的数据是过于详细的数据,而数据集市中的数据通常不是那么过于详细。当人们以共同的方式查看数据
时,更有效也更方便的做法是,获取详细数据并按照用户组想要查看它的方式将其结构化。这样当某些人想要查看数据时总能以个人想要的
结构化、格式化的方差查看数据。而不必担心还需提取详细数据并将其重构的工作。
    数据集市如此盛行还有其他一些重要的原因。它之所以吸引人是因为当将数据置于企业数据仓库外部时,数据的处理成本通常会降低,
在DW2.0的宿主机上的处理成本常常与计算周期能达到的最高值一样,而在脱机状态下提取数据在将其放入另一个更下、更部门级的机器上时
处理成本就会减小。
    另外通过将数据集市提取到另一机器上,DW2.0企业数据仓库环境的机器周期得得以保留,而将机器周期从DW2.0环境移动到另一个环境
极大地提升了主DW2.0的性能。
    将数据集市提取到另一机器上是个不错的主意的因为,不同部门喜欢这种对自己的数据和处理持有所有权的方法。
    转换数据集市数据发生在数据从DW2.0环境移至数据集市时,包括数据汇总、数据聚集、数据选择及过滤、字段及其他属性的充足。
    那么什么时候将分析过程从企业数据仓库移入到数据集市中?答案是,当许多人以相同的方式查看数据并且做大量查询时,创建数据集
市就有意义了。

监视DW2.0
    数据仓库监视器是获知何时应添加一个或多个数据集市的最佳方法之一。数据仓库监视器监测数据仓库中正在进行的活动。当检测到连
续的使用形式时,可能就改建立数据集市了。数据集市在建立后通常都是自治的,终端用户几乎能用他们的数据集市做任何想做的事情。

在数据集市间移动数据
    将数据直接从一个数据集市移动到另一个数据集市在架构上还不健全,几乎所有情况下,都无法将数据从一个数据集市移动到另一个。
如果有必要在两个或者多个数据集市间共享数据,那么应将该数据放置在DW2.0企业数据仓库环境中。

不合格的数据
    期望所有数据都能完全输入到大型、复杂的企业数据仓库环境中是不合理的。首先要试图确认不合格数据的来源。如果能找到来源,下
一步就是修正这一数据源。
    用以平衡的条目。修正一个将不合格数据传送到数据仓库的过程并不是解决如何处理已经进入数据仓库不合格数据的问题。修正DW2.0
中不合格数据的一种方法是找到不合格数据并且构造一个“平衡”条目。如果发现系统中有一笔错误的数据条目¥23.61,那么在构造另一个
等于-¥23.61的条目即可修正该数据。这种方法保持了账目平衡,并且留下检查跟踪。但是这种方法仅限于调整有限数据并且能够确认错误
数据的情况。
    重新设置值。不幸的是,很多情况下,并不能找到数据确定的错误数据并为之建立平衡条目。这种情况下要强制建立一个条目来“重新
设置”某个记录中的值。通过建立新的条目来完成对值得强制性重置时,跟踪记录应详细说明重置过程是如何完成的。
    数据修正。找到不合格数据然后在他们的记录中修改该值。这样做有很多缺陷,一、没有清晰的、明显的跟踪记录;二、数据的完整性
遭到破坏。
 
数据移动的速度
    数据进入和通过DW2.0数据仓库的移动速度引出了一个有趣而具有哲学意味的问题。一些人认为数据应该因可能快的在整个DW2.0数据仓
库中移动。另外的人推崇以一种较慢的、更慎重的方式在整个DW2.0环境中移动数据。后者数据在等待移入DW2.0环境的过程中允许进行整理
当给予足够的时间来对错误设置的数据进行调整时,数据会进行整理。这种不急于将交易数据传入DW2.0的方式就给将交易数据整治直至最终
状态提供了可能,带来的结果是更精确的数据以及对DW2.0而言更简单的处理。

数据仓库工具
    数据仓库工具是采用一些或者所有数据仓库处理,并且透明地替换现有的一些或者所有数据仓库基础设施的设备。对于运用数据仓库工
具有很多充分的理由,包括性能,成本以及延长DBMS的许可期限等。“Dataupia”是数据仓库工具的一个不错的例子。一个终端用户与SAP
之类的技术环节相互交互,而SAP又与ORACLE之类的DBMS直接交互,ORACLE与传统的EMC、IBM或Hitachi之类的SAN技术直接交互。随着时间
的增长,传统环境中的大量数据量开始增长并且可能变得非常巨大。在这种环境中数据如此固定的增长有三点原因:数据均以低粒度级收集
得到;数据是过去收集的;数据是从多种多样的数据源收集并整合的。数据增长有很多后果,一个最大的后果是数据以及支持它的基础设施
的成本会大幅度增长,作为数据量管理功能,基础设施的成本会升高。成本不仅仅是增长,并且是大幅增长。在数据仓库处理中,存储成本

是个有趣的因素。在建造和发展数据仓库的头两三年,存储成本几乎不重要,但是当数据仓库成熟后,数据仓库其他方面的成本减少了,而
存储成本却增长了。而且,不仅存储成本增长,用于存储基础设施成本也相应的增长,有处理成本、软件许可成本以及销售渠道成本。另外
在获得并实现存储后会不断地产生操作成本。当针对这些因素而考虑实际的存储成本时,它仅仅是总的存储成本中的一部分。然而存储和
基础设施的成本是不可避免的,一旦某机构受困于某已处理,那么它就必须继续下去,并且很长时间。但是,组织机构需要管理预算,每年
支出的主要增长不能总是不明确,而组织机构想要找到管理预算的方法也是很自然的。因此,他们求助于数据仓库工具来帮助他们管理预算
以及他们的数据仓库环境就很正常了。
    数据仓库工具是一种为传统的SAN存储的一小部分成本存储和管理数据的方法。有这种方式,一部分数据受传统存储方式管理,另一部分
则受数据仓库工具管理,这样分开管理的效果显著地表现在大大降低了数据仓库日常的基础操作成本。从细节上看,增加数据仓库工具后操
作数据仓库的成本可能有极大减少。将数据移入数据仓库工具大大削减了传统存储技术连续不断地操作成本。执行数据仓库工具并不像把电
源插头插入插座那么简单,数据仓库工具技术的配置有多种策略,每种配置各有其优劣。
    运用DWU的一种方法是完全替代传统技术--DWU转入而传统技术转出。这种替代策略的优点是可以立即削减存储成本,同样,它也有一些
缺点:许可破坏--不能不考虑原有的合同及许可,而轻易丢弃已有的旧环境;软件破坏--有些情况下,一些DWU对用于管理存储操作的控制
不透明,这种情况下DWU无法彻底取代传统存储技术;存储最优化--DWU存储对于OLTP操作并不是最优的。一些情况下,DWU只对数据仓库操作
最优。
    另一种方法是渐进地对一些传统数据仓库中的存储技术进行替换。这种方法的缺点是必须对数据透明,DWU必须与控制传统存储的操作系
统及DBMS兼容。如果DWU对他们不透明,那么它必须访问并且管理那些较易从传统环境中分离出来的片段程序。不幸的是,这种渐进地、分离
的方法在应用中多少有些局限。
    运用DWU技术的第三种方法是透明地配置DWU。透明意味着DBMS用户不知道数据的位置,数据可能存储在DWU或者传统的存储中,系统根本
不在乎。数据实际的物理位置以及对数据的管理对于用户以及DBMS是透明地,采用这种方法时,用于控制DWU的软件必须与操作系统以及管理
传统存储的DBMS兼容。

总结:
    数据集市包含了用于决策的部门数据。支持数据集市理由如下:机器周期成本地;终端用户拥有控制权;DW2.0的性能得以提升。
    当不合格的数据进入DW2.0环境中,可以:不合格数据来源应该明确并得以修正;建立平衡条目;重置值可以对数据进行实际修正。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1310928/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1310928/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值