先让我们看看数据仓库的定义,数据仓库的创始人 Bill Inmon 是这样定义的:数据仓库是 为支持决策管理建立的,是面向主题、集成的、稳定的、随时间变化的数据集合。
从数据仓库的定义可以看出数据仓库中数据的特点:(1)数据的存储是面向主题的:在操作型系统中,数据集合是以单独的应用程序为中心专门组织存放的,数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。(2)数据是集成的:数据仓库的数据是来源于不同的操作型系统,其中文件布局、编码表示方式、命名习惯和度量单位等都有可能不同,还有一些企业除了从操作系统获取内部数据,外部系统数据也是很重要的。所以,在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成操作。(3)数据的时间特性:操作型系统存储的数据一般包含当前值,反映的是当前信息,而数据仓库中是供分析和决策使用的,决策者必须根据数据趋势进行决策,这不但需要当前数据,也需要历史数据。所以,数据仓库的目的决定了它包含当前数据之外,也必须包含历史数据。数据仓库中的数据结构都包含时间特性对于设计阶段和实现阶段都具有重要意义。(4)数据的稳定性:操作型系统的数据是实时更新的,数据仓库中的数据在载入之后几乎不会再更新,只要是查询分析使用。另外,数据仓库中数据粒度与操作型系统中的数据粒度也不一样,在操作型系统中数据存储通常数据非常详细,但是数据仓库中是按不同的粒度层次来存放数据的。