学习心得
一、数据仓库的设计步骤
主要分为如下5步
1) 数据仓库的规划和需求分析
其中最重要的一条就是业务目标,建设数据仓库的目的,解决什么问题,
2)数仓建模
传统的关系型数据库建模方式采用E-R图建模,所建模型对事务性的处理非常有益,他可以保证数据的唯一性,一致性,使得操作简单高效,但数据仓库时面向分析的应用,进而分析的时一个领域,所以ER不适合,而我们经常使用的建模方法主要有3种(范式建模法,维度建模(内涵星星结构、雪花)Data Vault 模型
http://note.youdao.com/noteshare?id=6b71705dbeb1b77456b78fcfd40e04c7&sub=475F0FF12AC14EF8A45E8E760441BE6D
3)物理设计模型
在设计模型主要分为3大类
1、确定数据的存储结构
在选择合理的存储结构一般根据这3个因素:存取时间,存储空间利用率和维护代价
2、确定索引策略
3、确定存储分配
4)数据仓库的部署
部署之前先要得到用户的人可,最关键的时用户没有对数据仓库表示满意钱不要强行进行部署,可以先在现有的数据库种进行一下测试,根据需求分析,业务逻辑挑几个功能点进行,满足效果了再开始部署
5)数据仓库的维护
2、简述星星模型,雪花模型,事实星座模型区别(大家都知道,自己百度查下就知道了)
3、数据库三种模式之间的关系
4、在设计数据仓库时,为什么确定事实表的粒度非常重要
数据仓库里面的一些词语
粒度,维度,维属性,维成员,维层次 度量 事实 具体不做解释,自行百度一下就出来了
下面针对问题说明一下粒度
粒度是指数据仓库中数据单元的详细程度和级别,确定粒度是数据仓库中最重要的方面
数据越详细,粒度越小,级别就越低,
数据综合度越高,粒度越高,级别就越高,例如地址中北京市比北京市海淀区粒度大
在传统数据库中粒度级别最低,所有的操作都i是在最低粒度进行的,但是在数据仓库的应用主要是分析型处理,一般需要将数据分为详细数据,轻度总结,高度总结 3个级别等更多级粒度,在开发中要合理进行选择。