DW2.0下一代数据仓库架构_第7章 统计处理和DW2.0(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。


    数据仓库最重要的功能之一是对统计分析的支持。所有行业都使用了统计分析,只是程度不同而已。从终端用户的角度来看,通过统计
分析得到的数据从根本上不同于以其他方式得到的信息。例如,统计产生的数据往往用来做战略性决策分析,很少用来做局部性分析。统计
分析必须设计大量的数据,其他形式的分析往往只能看到很少一部分数据。统计分析所涉及的信息往往具有更长时间的跨度,对于统计分析
而言,翻看到5年、10年甚至更久的数据是很正常的。

两种类型的处理
    基本查询和统计分析。基本查询仅使用很少的一些资源,仅需很少的数据;相反,典型的统计分析需要很多的资源来满足统计查询,需
要大量的数据记录。查询仅查找并给出少量数据;统计分析中,需要大量的数据记录;

使用统计分析
    最简单的统计分析可以是建立一个数据分析文件。数据的分析是指数据实体内容的统计总结。数据统计分析可以回答一下典型的问题:
有多少条数据记录?最大值和最小值是多少?平均数、中间值、最频值是多少?有没有超出指定范围的值?是否存在指定范围内的边缘值?
这些数据非分布有什么规律?所有诸如这些问题都可以添加到实体的分析中。
    数据的统计分析出了以上的用途之外,还有许多其他方面的应用。例如对企业数据和外部数据的比较。其中,企业数据的生成和发展是
比较的第一步,然后在捕捉外部数据并将它们置于相同的环境条件中,然后就可以进行比较了。比较的完整性是比较统计分析的一个关键
问题。严谨的统计学工作者一般会确定它们比较的对象是否为同一事物--是苹果核苹果比较还是苹果核橘子比较。
    统计分析还可以确定数据发展趋势和数据的模型。
    启发式分析属于发现过程中的一部分,在发现过程中,分析员并不知道数据中隐含的信息。他们要在不知道数据包含什么也不知道自己
期待什么的情况下开始去挖掘或者学习数据的内容。在启发式分析中,下一次分析迭代是由当前分析结构决定的。计划好分析的迭代次数或
分析得到什么结果,对于真正的启发式分析来说是不可能的。在商业领域中,抱有启发式分析态度的人随处可见。
    统计处理和启发式分析存在着一定的关联性。在启发式分析中会偶尔地冻结数据,冻结后系统不能吸收新的数据。这么做是因为我们
需要检查分析的结果是由算法还是数据的改变产生的。

探索性处理
    探索处理的本质之一是它经常进行反复的探索过程。在许多类型的信息处理中,分析过程往往建立在内容、形式和结构都已知的数据上
另外一种类型的信息处理则恰恰相反,他们对数据的内容、形式和结构一无所知。这就是探索分析。

分析频率
    统计分析的频率和DW2.0对统计处理的支持有着密切的关系。随着统计分析频率的改变,支持DW2.0的基础设施也会相应变化。随着统计
分析频率的增长,对单独的探索工具的需求也越来越大。如果统计分析一年只做一次,那么基本的DW2.0的基础设施就可以单独胜任这个水平
的处理。如果一个季度一次,也可以勉强处理。如果一个月一次,那么或许也可以处理。但如果频率更高而DW2.0架构又没有额外的性能增加
那么就无法处理了。在很多机构中统计分析常常是一小时一次,那么需要将单独的探索工具添加到到数据仓库中,以保证分析处理正常使用

探索工具
    可以在探索工具上面进行统计处理并对核心DW2.0基础设施不会产生影响。探索工具和DW2.0环境在物理空间上相互分离,他们位于不同
的物理平台上。如果需要的话探索工具可以被冻结一段时间。如有必要还可以引入外部数据。典型的探索工具常常包含DW2.0环境下数据的
子集。它很少从DW2.0环境中直接复制,甚至连一部分也很少复制。探索工具中数据具有最低粒度。另外还常常引入大量的历史数据。这样
做是为了满足探索分析的需求常常需要数据的细节和历史跨度。探索工具中的数据结构往往是混合型的。一些数据在磁盘上以表格的形式
存储,还有一些数据分布在文件中,这些平铺的文件往往是适合做统计分析。探索工具往往包含大量同一类型的数据。探索工具中数据的
种类较少,而数据记录却很多。

探索性处理数据的来源
    探索工作可以从很多地方得到所需的数据资源,整合区、近线区和归档区等。其中整合区是探索工具获取数据的主要来源。有时也可以
从交互区获取数据,需注意以下事项:先要保证交互区的服务不被干扰,要特别小心维护交互区的性能;从交互区中取得的数据不能是可
审查的。

更新探索数据
    进入探索工具的数据的更新周期必须仔细考虑。在DW2.0的其他部分,数据的流动会很快,只要出现数据就开始流动。而探索工具的收只
在探索分析师需要时才会流进来。这种需求频率可能是天、周或者是月,这取决于探索分析师的需求。

基于项目的数据
    通常探索工具是基于项目的,管理层需要对一个具体问题进行研究。收集相关的数据,对数据进行分析,然后把分析结果送至管理层。
一档数据被送至管理层并研究完,数据要么被丢弃,要么保存起来,所有基于项目的探索工具并不是一个永久性结构。然而一些机构却像
拥有永久性的探索工具。在这种情况下,当需要进行分析时,探索工具需要随时可用,而其中的细节数据则要经常更新。

数据集市和探索工具
    数据集市和探索工具有很大不同:
    1、探索工具拥有细节数据,数据集市多为概要数据或集成数据
    2、探索工具是用来发现知识的,数据集市仅仅是传播信息
    3、探索工具服务于数据工作者,数据集市为商业分析员提供帮助
    4、探索工具基于平铺文件,数据集市基于OLAP
    5、探索工具经常是临时性的,而数据集市则是永久性的
    6、探索工具依赖于统计软件,数据集市依赖于商业智能软件

数据回流
    让探索工具流回到DW2.0环境是允许的,但是有一些前提条件必须满足
    1、探索工具输出的数据必须能够在整个企业环境的不同地方使用。如果输出数据仅仅被用在一两个地方,那么将它置于DW2.0意义不大
    2、DW2.0环境中需要有和探索工具数据相关的数据审核跟踪和计算
    3、如果探索工具中的数据要放入DW2.0环境中,并且该探索工具是基于项目的,那么这些数据往往是受限制的一次性提供的数据。
       如果要放入DW2.0环境的数据来自于临时性资源,就不要指望这些资源成为进入DW2.0数据仓库的数据的永久提供者

在内部使用探索数据
    探索工具在使用时一定要谨慎。在大多数情况下,探索工具提供的分析仅仅是内部使用。这是因为探索工具用到的数据并没有像流入
DW2.0环境的数据那样经过严格的ETL处理。因此,当审计师和审查员提供报告和数据时,如果使用从探索工具得到的数据,便没有意义。相
反,只有“正式的”数据才可以被用在正式的报告中。我们需要记住。报告用到的信息最终往往会出现金融评论甚至新闻中,因此将基于
探索工具数据的报告用在公共场合中是很不明智的,原因在于这些报告可能并不是通过事宜的计算得到的,甚至还可能包含错误的数据。

总结:
    查询分两种类型:分析查询和探索查询。探索查询涉及了大量的数据并且需要很长的时间。探索查询需要粒度的和历史的数据。典型的
探索处理利用了统计技术。
    有时,探索数据需要被冻结,冻结一般发生在启发式处理过程中。在启发式处理过程中,分析的下一步完全取决于当前分析的结果。
    探索工具建立的目的仅仅是为了支持探索处理。是否需要建立探索工具完全取决于统计分析发生的频率。如果统计分析发生的频率较低
那么便没有必要建立专门的探索工具,反之,可能需要建立专门的探索工具。
    统计工具建立在项目基础上。如果项目完成,那便没有必要保留相关的探索工具。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1319009/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1319009/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值