数据仓库
第二章 数据仓库环境(1)
1.1数据仓库的特性介绍
数据仓库是一个面向主题的,集成的,非易失的,随时间变化的用来支持管理人员决策的数据集合。
面向主题:对于一个保险公司,公司的主题域可能是顾客、保险单、保险费、与索赔。而对于一个生产商,主题域可能是产品、订单、销售商、材料单与原货物等。不同类型的公司主题域是不一样的。
集成性:集成是所有特性中尤为重要的一个,许多不同应用之间存在编码、命名习惯、物理属性、属性度量单位等方面没有一致性,而集成就是将其统一化。
非易失性:操作性环境中的数据通常是要周期性的更新的,但数据仓库的数据并不进行(一般意义上的)数据更新,数据仓库中的数据在进行装载时是以静态快照的格式进行的,当产生后续变化时,一个新的快照记录会写入数据仓库,这样,数据仓库就保存了数据的历史状况。
时变性:数据仓库的每一个数据单元只是在某一时间是准确的。在一些情况下会加入时间戳,总之在任何情况下都会包含某种形式的时间标识用以说明数据在那一时间是准确的。
1.2数据仓库结构
数据仓库环境中数据存在着不同细节级:早起细节级(通常存储在备用海量存储器上)、当前细节级、轻度综合数据级(数据集市级)以及高度综合数据级。相当数量的转换通常发生在数据由操作性环境向数据仓库传输过程中。
一旦数据过期,就会由当前细节级进入早期细节级,综合后的数据由当前细节级进入数据集市,然后再进入高度综合数据级。