数据仓库设计思路

本文介绍了数据仓库的设计思路,包括模型设计的三个层次、维度建模原则、事实表和维表设计、指标与属性的区别、变化数据捕获方式、数据仓库总线矩阵等。强调了对表操作以insert为主,重视查询性能优化,如使用物理视图、分区优化和ETL工具设计。此外,还讨论了编码表和对照表在维层次关系中的作用。
摘要由CSDN通过智能技术生成

数据仓库一些设计思路和总结

1、数据仓库模型设计分为概念模型、逻辑模型和物理模型;数据仓库建模方法:实体关系模型、维度建模。数据仓库逻辑模型设计:确定主题域->粒度层次划分->确定数据分割策略->关系模式确定。数据仓库物理模型设计:确定数据存储结构->确定数据仓库索引策略->对表归并优化存储分配。

2、维度建模-维表设计原则:维表用文本属性取代编码,维表属性对应的是分析的角度。维度可以分为层次和级别,一个层次多个级别,可以设计一张表多个字段也可以设计成单表。维度建模-事实表设计原则:粒度是用来刻画事实,粒度自身可理解为不同层次维度。粒度设计原则:多粒度设计建立事实表族。

3、维度建模步骤:确定分析主题->定义粒度->确定维度->确定分析指标事实表。维度模型中维度表是非规范化的平面表,维度表的规范化处理一般称为雪花处理,雪花处理可以减少数据冗余,但是因为要连接多张表查询性能会下降。

4、衡量一个指标是维元素还是维属性的原则:作为维属性的通常是离散型数据,只允许有限值;作为维元素是连续型数据;同时还要考虑指标占用存储空间与相关查询使用频度,对于频度高存储大的指标设计为维元素。

5、事实表是数据仓库核心,一般记录数很大,需要设置复合主键和索引,以提高查询性能,如果前端需要连接数据仓库查询,还要建立相关中间汇总表或物化视图提高查询效率。对与有千万行数据量的事实表的分区优化方案。

6、变化数据捕获方式:触发器(快照)方式、时间戳、日志表方式、全表比对、全表删除插入。 

7、数据仓库主题域中定义数据仓库总线矩阵:

   数据仓库总线矩阵:

     维度

主题

日期

地域

账号

卡号

存款业务

 

 

 

 

贷款业务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值