我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle 、MySQL 、SQL Server 关系型数据库的数据仓库,其实都面临如下问题:
-
怎么组织数据仓库中的数据?
-
怎么组织才能使得数据的使用最为方便和便捷?
-
怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?
Kimball 维度建模理论很好地回答和解决了上述问题。
维度建模理论和技术也是目前在数据仓库领域中使用最为广泛的、也最得到认可和接纳的一项技术。今天我们就来深入探讨 Ralph Kimball 维度建模的各项技术,涵盖其基本理论、一般过程、维度表设计和事实表设计等各个方面,也为我们后面讲Hadoop 数据仓库实战打下基础。
度量和环境
维度建模是支持对业务过程的分析,所以它是通过对业务过程度量进行建模来实现的。
那么,什么是度量呢?
实际上,我们通过和业务方、需求方交谈,或者阅读报表、图表等,可以很容易地识别度量。
考虑如下