对于数据仓库来说,业务才是第一位的。在建造数据仓库时,兼具数据库管理员和工商管理硕士水准的业务分析师的资质是多么必要。
操作型系统就是存入数据的地方,而数据仓库索取数据之所在。
操作型系统的用户推动着机构轮子的运转,从事获取订单,注册新顾客与记录投拆内容等工作。
数据仓库的用户观测着轮子的运转,从事对新订单进行计数,询问注册新顾客的原因以及顾客因何事抱怒等工作。
数据仓库:是一个面向主题,集成的,非易失性的,因随时间变化的数据集合,用于支持管理决策。
数据仓库的最终目标
1.数据仓库必须使组织机构的信息变得容易存取
数据仓库的内容必定是容易理解的,数据对于业务人员也必定是直观的,明显的,而不能仅仅对于开发人员来说是这样。数据仓库存取
2.数据仓库必须一致地展示组织机构的信息
数据仓库中的信息必须是可信的。它必须通过机构的各种渠道收集得到并精心组织起来,必须经过整理、具有质量保证并且在量上满足了用户需求的情况下才进行发布
3.数据仓库必须具有广泛的适应性和便于修改
如果对仓库中的描述数据进行修改,必须考察这种修改是适当的
4.数据仓库必须发挥安全堡垒作用以保护信息资产
5.数据仓库必须在推动有效决策方面担当最基本的角色
数据仓库必须为决策的制定提供正确的数据支持,数据仓库有且仅有一个正确的输出-由数据仓库提供的依据而制定的决策
6.数据仓库为业务群体所能接受的前提是被认定是成功的
数据仓库的组成
在开发数据仓库环境时,有4个相互分离的独特构件需要考虑 操作型源系统、数据聚集环节、数据展示环节、数据存取工具
1. 操作型源系统:
源系统优先解决的主要课题是处理高性能与可用性。源系统并不以数据仓库普通采用的那种宽泛而不可预期的方式进行数据查询。源系统几乎不维护什么历史数据。
企业应用一体化(EAI ,Enterprise Application Integration)
2. 数据聚集环节
数据仓库的聚集环节包括存储环节和一般称之为析取转换加载(ETL Extract-Transormation Load)的一组处理过程
创建聚集用的规范化结构和展示用的维度,意味着数据要被析取、转化和加载两次―― 一次用于规范化结构、一次针对维度模型
3. 数据展示
后台聚集环节是用户接触不到的,这样一来,展示环节就成为业务群体眼中的数据仓库,这是业务群体通过数据存取工具所看到的和接触的一切
原子数据对于经受住无法预期的特殊用户的查询攻击考验是必需的。
所有数据中心必须采用共同的维度和事实来建造,要求它们是一致的
4. 数据存取工具
查询操作是使用数据仓库的全部目标所在。数据存取工具可以简单到只是进行特定的查询,也可以复杂到进行数据挖掘或者建模应用。像建模或者预测工具这样的更为复杂的数据存取工具,实际上还可以将结果回上载到数据仓库的操作型源系统或者聚集/展示环节
其他要考虑的内容
1. 元数据
元数据指的是数据仓库环境中除去数据本身之外的所有信息,它是数据仓库的百科全书的同义词
元数据以各种各样的形态和格式出现而提供对数据仓库技术、管理或者业务等方面用户群体的支持
2. 操作数据存储
3. 事实表
事实表是维度模型的基本表,事实表存放有大量的业务性能度量值。维度值的列表给出了事实表的粒度定义,并确定出度量值的取值范围是什么。
事实是数字类型与可加型事实
在大多数情况下,文本度量值可以是一个事物的描述并且取自一个离散列表的值。设计者应该尽各种努力将文本度量值勤转换成维度,原因在于维度能够与其他文本维度属性更有效地关联起来,并且消耗少得多的空间。除非文本对于事实表的每行来说都是惟一的,否则它应该归属到维度表中。
事实表粒度归属于三类之一:事务、周期快照、累积快照
4. 维度表
维度表是事实表不可分割的伴侣。维度表包含有业务的文字描述。在一个设计合理的维度模型中,维度表有许多列或者属性,这些属性给出对维度表的行所进行描述
在提供详细的业务用语属性方面所花的时间越多,数据仓库就越好。在属性列值的给定方面所花的时间越多,数据仓库就越好。在保证属性列值的质量方面所花的时间越多,数据仓库就越好。
实际应用中,几乎总是用维度表的空间来换取简明性和可访问性
5. 事实与维度的融合
反复提及,最佳粒度或者原子数据具有最佳的维度。被聚合起来的原子数据是最有表现力的数据。原子数据应该成为每个事实表设计的基础,从而经受住业务用户无法预见的查询所引起的特别攻击