一、数据仓库的架构
数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP 系统的分析需求为目的。
数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。
从OLAP 系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP 系统交互。因此,在实际项目中,将综合运用星型架构与雪花型架构来设计数据仓库。
那么,下面就来看一看,构建企业级数据仓库的流程。
二、构建企业级数据仓库五步法
(一)、确定主题
即确定数据分析或前端展现的主题。例如:希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。
可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求通过时间和地区两个维度的组合,来考察销售情况这个量度。从而,不同的主题来源于数据仓库中的不同子集,可以称之为数据集市。数据集市体现了数据仓库某一方面的信息,多个数据集市构成了数据仓库。
(二)、确定量度
在确定了主题以后,将考虑要分析的技术指标,诸如年销售额之类。它们一般为数值型数据。或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。
量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)等的设计和计算。
(三)、确定事实数据粒度