数据仓库主要由下面几部分组成:
源数据
数据准备
数据存储
信息传递
元数据
管理和控制部分
源数据
一般可分为4类:
生产数据,一般来自与企业内部的各种操作型系统;
内部数据,这些数据来自用户自己的电子文档、表格、客户信息,甚至部门内部的数据库;
外部数据;
存档数据。
数据准备
数据抽取,这一部分工作是针对多个数据源的,需要对每一个数据源使用合适的技术。如果购买外部工具可能导致较高的初始成本,自己开发程序会带来开发和维护的成本;
数据转换,数据清洗、数据标准化和数据汇总
数据装载,包含初始装载和更新装载两部分,初始装载在完成数据仓库的设计和建设工作后进行大量的数据装载;而更新装载是按一定的周期来装载数据源中有变动的数据。
数据存储
(待补充)
信息传递(前端展现)
包含报表展现,即席查询,统计分析,数据挖掘,其他系统接口数据。
元数据
操作型元数据,抽取和转换元数据,最终用户元数据
元数据连接了数据仓库的所有部分;为开发者提供了数据仓库内容和结构的所有信息;向最终用户描述了数据仓库的内容,使最终用户可以用自己的知识来辨别里面的内容。
管理和控制(调度程序)
管理和控制部分对数据仓库中的服务和活动期协调作用,在数据仓库中位于其他组成部分之上。