数据仓库一些设计思路和总结
1、数据仓库模型设计分为概念模型、逻辑模型和物理模型;数据仓库建模方法:实体关系模型、维度建模。数据仓库逻辑模型设计:确定主题域->粒度层次划分->确定数据分割策略->关系模式确定。数据仓库物理模型设计:确定数据存储结构->确定数据仓库索引策略->对表归并优化存储分配。
2、维度建模-维表设计原则:维表用文本属性取代编码,维表属性对应的是分析的角度。维度可以分为层次和级别,一个层次多个级别,可以设计一张表多个字段也可以设计成单表。维度建模-事实表设计原则:粒度是用来刻画事实,粒度自身可理解为不同层次维度。粒度设计原则:多粒度设计建立事实表族。
3、维度建模步骤:确定分析主题->定义粒度->确定维度->确定分析指标事实表。维度模型中维度表是非规范化的平面表,维度表的规范化处理一般称为雪花处理,雪花处理可以减少数据冗余,但是因为要连接多张表查询性能会下降。
4、衡量一个指标是维元素还是维属性的原则:作为维属性的通常是离散型数据,只允许有限值;作为维元素是连续型数据;同时还要考虑指标占用存储空间与相关查询使用频度,对于频度高存储大的指标设计为维元素。
5、事实表是数据仓库核心,一般记录数很大,需要设置复合主键和索引,以提高查询性能,如果前端需要连接数据仓库查询,还要建立相关中间汇总表或物化视图提高查询效率。对与有千万行数据量的事实表的分区优化方案。
6、变化数据捕获方式:触发器(快照)方式、时间戳、日志表方式、全表比对、全表删除插入。
7、数据仓库主题域中定义数据仓库总线矩阵:
数据仓库总线矩阵:
维度 主题 |
日期 |
地域 |
账号 |
卡号 |
存款业务 |
|
|
|
|
贷款业务 |