DW2.0下一代数据仓库架构_第7章统计处理和DW2.0(读书笔记)

最新推荐文章于 2024-09-04 21:14:17 发布

cuiba1921

最新推荐文章于 2024-09-04 21:14:17 发布

阅读量105

点赞数

文章标签：数据结构与算法

版权声明：
该系列文章（DW2.0下一代数据仓库架构）内容系作者学习用笔记，
欢迎共同学习，所载内容版权归原书作（译）者所有，请勿转载商用。

数据仓库最重要的功能之一是对统计分析的支持。所有行业都使用了统计分析，只是程度不同而已。从终端用户的角度来看，通过统计
分析得到的数据从根本上不同于以其他方式得到的信息。例如，统计产生的数据往往用来做战略性决策分析，很少用来做局部性分析。统计
分析必须设计大量的数据，其他形式的分析往往只能看到很少一部分数据。统计分析所涉及的信息往往具有更长时间的跨度，对于统计分析
而言，翻看到5年、10年甚至更久的数据是很正常的。

两种类型的处理
基本查询和统计分析。基本查询仅使用很少的一些资源，仅需很少的数据；相反，典型的统计分析需要很多的资源来满足统计查询，需
要大量的数据记录。查询仅查找并给出少量数据；统计分析中，需要大量的数据记录；

使用统计分析
    最简单的统计分析可以是建立一个数据分析文件。数据的分析是指数据实体内容的统计总结。数据统计分析可以回答一下典型的问题：
有多少条数据记录？最大值和最小值是多少？平均数、中间值、最频值是多少？有没有超出指定范围的值？是否存在指定范围内的边缘值？
这些数据非分布有什么规律？所有诸如这些问题都可以添加到实体的分析中。
    数据的统计分析出了以上的用途之外，还有许多其他方面的应用。例如对企业数据和外部数据的比较。其中，企业数据的生成和发展是
比较的第一步，然后在捕捉外部数据并将它们置于相同的环境条件中，然后就可以进行比较了。比较的完整性是比较统计分析的一个关键
问题。严谨的统计学工作者一般会确定它们比较的对象是否为同一事物--是苹果核苹果比较还是苹果核橘子比较。
    统计分析还可以确定数据发展趋势和数据的模型。
    启发式分析属于发现过程中的一部分，在发现过程中，分析员并不知道数据中隐含的信息。他们要在不知道数据包含什么也不知道自己
期待什么的情况下开始去挖掘或者学习数据的内容。在启发式分析中，下一次分析迭代是由当前分析结构决定的。计划好分析的迭代次数或
分析得到什么结果，对于真正的启发式分析来说是不可能的。在商业领域中，抱有启发式分析态度的人随处可见。
    统计处理和启发式分析存在着一定的关联性。在启发式分析中会偶尔地冻结数据，冻结后系统不能吸收新的数据。这么做是因为我们
需要检查分析的结果是由算法还是数据的改变产生的。

探索性处理
探索处理的本质之一是它经常进行反复的探索过程。在许多类型的信息处理中，分析过程往往建立在内容、形式和结构都已知的数据上
另外一种类型的信息处理则恰恰相反，他们对数据的内容、形式和结构一无所知。这就是探索分析。

分析频率
统计分析的频率和DW2.0对统计处理的支持有着密切的关系。随着统计分析频率的改变，支持DW2.0的基础设施也会相应变化。随着统计
分析频率的增长，对单独的探索工具的需求也越来越大。如果统计分析一年只做一次，那么基本的DW2.0的基础设施就可以单独胜任这个水平
的处理。如果一个季度一次，也可以勉强处理。如果一个月一次，那么或许也可以处理。但如果频率更高而DW2.0架构又没有额外的性能增加
那么就无法处理了。在很多机构中统计分析常常是一小时一次，那么需要将单独的探索工具添加到到数据仓库中，以保证分析处理正常使用

探索工具
可以在探索工具上面进行统计处理并对核心DW2.0基础设施不会产生影响。探索工具和DW2.0环境在物理空间上相互分离，他们位于不同
的物理平台上。如果需要的话探索工具可以被冻结一段时间。如有必要还可以引入外部数据。典型的探索工具常常包含DW2.0环境下数据的
子集。它很少从DW2.0环境中直接复制，甚至连一部分也很少复制。探索工具中数据具有最低粒度。另外还常常引入大量的历史数据。这样
做是为了满足探索分析的需求常常需要数据的细节和历史跨度。探索工具中的数据结构往往是混合型的。一些数据在磁盘上以表格的形式
存储，还有一些数据分布在文件中，这些平铺的文件往往是适合做统计分析。探索工具往往包含大量同一类型的数据。探索工具中数据的
种类较少，而数据记录却很多。

探索性处理数据的来源
探索工作可以从很多地方得到所需的数据资源，整合区、近线区和归档区等。其中整合区是探索工具获取数据的主要来源。有时也可以
从交互区获取数据，需注意以下事项：先要保证交互区的服务不被干扰，要特别小心维护交互区的性能；从交互区中取得的数据不能是可
审查的。

更新探索数据
进入探索工具的数据的更新周期必须仔细考虑。在DW2.0的其他部分，数据的流动会很快，只要出现数据就开始流动。而探索工具的收只
在探索分析师需要时才会流进来。这种需求频率可能是天、周或者是月，这取决于探索分析师的需求。

基于项目的数据
通常探索工具是基于项目的，管理层需要对一个具体问题进行研究。收集相关的数据，对数据进行分析，然后把分析结果送至管理层。
一档数据被送至管理层并研究完，数据要么被丢弃，要么保存起来，所有基于项目的探索工具并不是一个永久性结构。然而一些机构却像
拥有永久性的探索工具。在这种情况下，当需要进行分析时，探索工具需要随时可用，而其中的细节数据则要经常更新。

数据集市和探索工具
    数据集市和探索工具有很大不同：
    1、探索工具拥有细节数据，数据集市多为概要数据或集成数据
    2、探索工具是用来发现知识的，数据集市仅仅是传播信息
    3、探索工具服务于数据工作者，数据集市为商业分析员提供帮助
    4、探索工具基于平铺文件，数据集市基于OLAP
    5、探索工具经常是临时性的，而数据集市则是永久性的
    6、探索工具依赖于统计软件，数据集市依赖于商业智能软件

数据回流
    让探索工具流回到DW2.0环境是允许的，但是有一些前提条件必须满足
    1、探索工具输出的数据必须能够在整个企业环境的不同地方使用。如果输出数据仅仅被用在一两个地方，那么将它置于DW2.0意义不大
    2、DW2.0环境中需要有和探索工具数据相关的数据审核跟踪和计算
    3、如果探索工具中的数据要放入DW2.0环境中，并且该探索工具是基于项目的，那么这些数据往往是受限制的一次性提供的数据。
       如果要放入DW2.0环境的数据来自于临时性资源，就不要指望这些资源成为进入DW2.0数据仓库的数据的永久提供者

在内部使用探索数据
探索工具在使用时一定要谨慎。在大多数情况下，探索工具提供的分析仅仅是内部使用。这是因为探索工具用到的数据并没有像流入
DW2.0环境的数据那样经过严格的ETL处理。因此，当审计师和审查员提供报告和数据时，如果使用从探索工具得到的数据，便没有意义。相
反，只有“正式的”数据才可以被用在正式的报告中。我们需要记住。报告用到的信息最终往往会出现金融评论甚至新闻中，因此将基于
探索工具数据的报告用在公共场合中是很不明智的，原因在于这些报告可能并不是通过事宜的计算得到的，甚至还可能包含错误的数据。

总结：
    查询分两种类型：分析查询和探索查询。探索查询涉及了大量的数据并且需要很长的时间。探索查询需要粒度的和历史的数据。典型的
探索处理利用了统计技术。
    有时，探索数据需要被冻结，冻结一般发生在启发式处理过程中。在启发式处理过程中，分析的下一步完全取决于当前分析的结果。
    探索工具建立的目的仅仅是为了支持探索处理。是否需要建立探索工具完全取决于统计分析发生的频率。如果统计分析发生的频率较低
那么便没有必要建立专门的探索工具，反之，可能需要建立专门的探索工具。
    统计工具建立在项目基础上。如果项目完成，那便没有必要保留相关的探索工具。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/26613085/viewspace-1319009/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1319009/

cuiba1921

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DW2.0下一代数据仓库架构_第7章统计处理和DW2.0(读书笔记)

版权声明：该系列文章（DW2.0下一代数据仓库架构）内容系作者学习用笔记，欢迎共同学习，所载内容版权归原书作（译）者所有，请勿转载商用。数据仓库最重要的功能之一是对统计分析的支持。所有行业...
复制链接

扫一扫