数据仓库建模(数据立方体和三种模式)
1.数据立方体(data cube)
(1)常用概念
数据立方体:数据立方体允许以多维对数据建模和观察。实际是N维结构,可以简单看做3-D集合结构
维:一个单位想要记录的透视或者实体
例如:一个数仓sales记录商店的销售设计维time、item、branch和location
维度表:每个维都可以有一个与之相关联的表,里面会有相关的属性(字段)该表称作维表,用来描述维,
基本方体(base cuboid):存放最低层汇总的方体
顶点方体:(apex cuboid)存放最高层的汇总,通常用all标记
举例:
二维:温哥华每个季度(Q1—Q4)的产品销量
三维:多个城市每个季度的产品销量
四维:再在上面维度基础上添加一个维度
。。
2.星形、雪花形和事实星座(多维数据模型)
最流行的数仓模型是多维数据模型。分为星形模式、雪花模式和事实星座模式
(1)星形模式
星形模式:(star schema)最常见,数仓包括两部分
一个大的中心表(事实表):包含大批数据并且不含冗余;一
组小的附属表(维度表)