数据仓库(Data Warehouse)是一个面向主题(Subject Oriented)、集成(Integrate)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策。
其中:
(1)面向主题:数据仓库中的数据是根据某个主题域进行组织的。
(2)集成:指对原有分散的数据库数据经过系统加工,整理得到的消除源数据中的不一致。
(3)相对稳定:一旦某个数据进入数据仓库后,只需定期加载刷新即可。
(4)反映历史变化:通过这些信息,对企业的发展历程和未来趋势进行定量分析和预测。
数据仓库建设是一个工程,一个过程,而不是一个可以购买的产品。企业数据处理方法是以联机事务处理形式对信息进行处理,并利用信息进行决策;在信息应用过程中的管理信息。
数据仓库的出现并不是为了取代数据库。目前,大多数数据仓库都是通过关系数据库管理系统进行管理的。
数据仓库和数据库的主要区别如下:
(1)数据库面向事务的设计,数据仓库面向主题的设计。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
(3)数据库的设计尽量避免冗余。数据仓库的设计是有意在引入冗余。
(4)数据库设计用于捕获数据,数据仓库设计用于分析数据。
(5)传统数据库是写时模式(schema on write),即数据在写入数据库时对数据进行检查,不合规范会报错。
数据仓库是读时模式(schema on read),即不会在数据加载时进行验证,而是在查询时进行,读取数据时不合法的字段显示为NULL。