数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合、用来支持管理人员决策。
细化程度越高,粒度级就越小;相反细化程度越低,粒度级就越大。
粒度的双重级别-轻度综合和真实档案
数据仓库最常用的数据组织形式
1、简单堆积
2、轮转综合
3、简单直接-间隔一定时间的操作类型数据的一个快照
4、连续-把一个快照追加到一个以前生成的连续文件上来创建
有三个层次的数据建模:高层建模( E R D,实体关系层),中间层建模( D I S,数据项集),底层建模(物理层)。
集成范围定义了数据模型的边界,而且集成范围需要在建模之前进行定义。这个范围由
系统的建模者、管理人员和最终用户共同决定。如果范围没有事先确定,建模过程就会一直
持续下去
中间层数据模型由初始数据组、二次数据组、连接件(表示主要主题域间的数据关系),数据类型组成。
公有数据在左边,独有数据在右边。
物理数据模型是由中间层数据模型创建的,它只是通过包含键码和模型的物理特性来扩展
中间层数据模型而得到的。这时,物理数据模型看上去像一系列表,这些表有时称做关系表。
在数据仓库的情况下,确定操作性能特性的第一步意味着决定数据的粒度与分割,必须
这样做。(当然,键码结构要做改变,以便能加入与每个数据单元都相关的时间元。)
由事件触发的快照有四个基本部分:
• 键码( K E Y )。
• 时间单元。
• 只和键码相关联的初始数据。
• 作为快照过程的一部分所捕获的二次数据,和初始数据或键码无直接的关系。
元数据在数据仓库的上层,并且记录数据仓库中对象的位置。典型地