数据仓库与数据挖掘学习笔记(二)数据仓库设计

学习心得
一、数据仓库的设计步骤

主要分为如下5步
1) 数据仓库的规划和需求分析
           其中最重要的一条就是业务目标,建设数据仓库的目的,解决什么问题,
2)数仓建模
     传统的关系型数据库建模方式采用E-R图建模,所建模型对事务性的处理非常有益,他可以保证数据的唯一性,一致性,使得操作简单高效,但数据仓库时面向分析的应用,进而分析的时一个领域,所以ER不适合,而我们经常使用的建模方法主要有3种(范式建模法,维度建模(内涵星星结构、雪花)Data Vault 模型
     http://note.youdao.com/noteshare?id=6b71705dbeb1b77456b78fcfd40e04c7&sub=475F0FF12AC14EF8A45E8E760441BE6D
3)物理设计模型
     在设计模型主要分为3大类
     1、确定数据的存储结构
     		在选择合理的存储结构一般根据这3个因素:存取时间,存储空间利用率和维护代价
     2、确定索引策略
     3、确定存储分配
4)数据仓库的部署
		部署之前先要得到用户的人可,最关键的时用户没有对数据仓库表示满意钱不要强行进行部署,可以先在现有的数据库种进行一下测试,根据需求分析,业务逻辑挑几个功能点进行,满足效果了再开始部署
5)数据仓库的维护

2、简述星星模型,雪花模型,事实星座模型区别(大家都知道,自己百度查下就知道了)
3、数据库三种模式之间的关系
在这里插入图片描述

4、在设计数据仓库时,为什么确定事实表的粒度非常重要

数据仓库里面的一些词语
粒度,维度,维属性,维成员,维层次 度量 事实 具体不做解释,自行百度一下就出来了
下面针对问题说明一下粒度
粒度是指数据仓库中数据单元的详细程度和级别,确定粒度是数据仓库中最重要的方面
数据越详细,粒度越小,级别就越低,
数据综合度越高,粒度越高,级别就越高,例如地址中北京市比北京市海淀区粒度大
在传统数据库中粒度级别最低,所有的操作都i是在最低粒度进行的,但是在数据仓库的应用主要是分析型处理,一般需要将数据分为详细数据,轻度总结,高度总结 3个级别等更多级粒度,在开发中要合理进行选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值