数据仓库基本概念
数据仓库是一个
- 面向主体的(Subject Oriented)
- 集成的(Integrated)
- 非易失的(Non-Volatile)
- 随时间变化的(Time Variant)
用来支持管理人员决策的数据集合。
**主题(Subject)**是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。
面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。
典型的主题有:顾客、产品、交易、政策、账目等。
**集成 Integrated)**是在数据仓库的所有特性之中,最重要的一种。 数据仓库中的数据是从多个不同的数据源抽取过来的。应用设计人员多年来做出的各种设计决策有很多种不同的表示方法。他们在建立一个应用时,从来不会考虑他们正在操作的数据在将来的某天会进入数据仓库,并与其他应用的数据进行集成。这样的后果是多个应用之间在编码、命名习惯、物理属性、属性度量单位等方面不存在任何一致性。 当数据进入数据仓库时,要采用某种方法来消除应用层的许多不一致性。 数据仓库中的编码是何表现形式并不重要,重要的是编码的一致性,如果不一致,就需要进行转换。
数据仓库的第三个重要的特性是非易失的(Non-Volatile)。下图说明了数据的非易失性和对操作型数据的访问和处理,一般是按一次一条记录的方式进行。
数据仓库的最后一个显著特性是随时间变化(Time Variant)。时变性的意思是数据仓库中每个数据单元是在某一时间是准确的。在一些情况下,记录中有时间戳,而另外一些情况下则记录一个事务的时间。总之,在多数情况下,记录都包含某种形式的时间标志用以说明数据在那一时间是准确的。