数据仓库与数据挖掘学习笔记（二）数据仓库设计

最新推荐文章于 2021-11-03 00:11:09 发布

Hellooorld

最新推荐文章于 2021-11-03 00:11:09 发布

阅读量454

点赞数

分类专栏：数据仓库文章标签： hive数仓设计数据仓库建模

本文链接：https://blog.csdn.net/qq_32736999/article/details/100862897

版权

数据仓库专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习心得
一、数据仓库的设计步骤

主要分为如下5步
1) 数据仓库的规划和需求分析
           其中最重要的一条就是业务目标，建设数据仓库的目的，解决什么问题，
2）数仓建模
     传统的关系型数据库建模方式采用E-R图建模，所建模型对事务性的处理非常有益，他可以保证数据的唯一性，一致性，使得操作简单高效，但数据仓库时面向分析的应用，进而分析的时一个领域，所以ER不适合，而我们经常使用的建模方法主要有3种（范式建模法，维度建模（内涵星星结构、雪花）Data Vault 模型
     http://note.youdao.com/noteshare?id=6b71705dbeb1b77456b78fcfd40e04c7&sub=475F0FF12AC14EF8A45E8E760441BE6D
3）物理设计模型
     在设计模型主要分为3大类
     1、确定数据的存储结构
     		在选择合理的存储结构一般根据这3个因素：存取时间，存储空间利用率和维护代价
     2、确定索引策略
     3、确定存储分配
4）数据仓库的部署
		部署之前先要得到用户的人可，最关键的时用户没有对数据仓库表示满意钱不要强行进行部署，可以先在现有的数据库种进行一下测试，根据需求分析，业务逻辑挑几个功能点进行，满足效果了再开始部署
5）数据仓库的维护

2、简述星星模型，雪花模型，事实星座模型区别（大家都知道，自己百度查下就知道了）
3、数据库三种模式之间的关系
在这里插入图片描述

4、在设计数据仓库时，为什么确定事实表的粒度非常重要

数据仓库里面的一些词语
粒度，维度，维属性，维成员，维层次 度量 事实 具体不做解释，自行百度一下就出来了
下面针对问题说明一下粒度
粒度是指数据仓库中数据单元的详细程度和级别，确定粒度是数据仓库中最重要的方面
数据越详细，粒度越小，级别就越低，
数据综合度越高，粒度越高，级别就越高，例如地址中北京市比北京市海淀区粒度大
在传统数据库中粒度级别最低，所有的操作都i是在最低粒度进行的，但是在数据仓库的应用主要是分析型处理，一般需要将数据分为详细数据，轻度总结，高度总结 3个级别等更多级粒度，在开发中要合理进行选择。