📖 本文目录
📖第四章——数据仓库与数据挖掘教程——第二版
📑 1、数据仓库分析与设计分为哪几个部分?
书P 67 -4.1.1
数据仓库分析与设计由需求分析、概念模型设计、逻辑模型设计与物理模型设计四个部分组成。
📑 2、需求分析
什么是数据仓库的需求分析?
数据仓库的需求分析是根据用户的决策支持需求,确定该决策主题域,并分析主题域的商业维度,同时分析支持决策的数据来源,以及想决策主体数据的转换;整个数据仓库的数据量大小以及数据更新的频率确定决策分析方法等。
需求分析的任务?
数据仓库的需求分析是数据仓库设计的基础。
需求分析的任务是要明确用那些数据经过分析来实现用户的决策支持需求。
📑 3、概念模型设计
概念模型设计 书P 68、69
将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型。它是从客观事件(用户)到计算机世界的一个中间层次,即用户需求的数据模型。
概念模型的特点
1、能够真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是显示世界的一个真实模型。
2、易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
3、易于更改,当用户需求发生变化时,容易对概念模型进行修改和扩充。
4、易于想数据仓库的数据模型(星型模型)转换
📑 4、逻辑模型设计
什么是逻辑模型设计?
逻辑模型设计是把概念模型设计好的E-R图转换成计算机所支持的数据模型。
粒度层次划分 书P73
所谓粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度就越大,层次级别就越高。
📑 5、物理模型设计
数据仓库中的物理模型设计 ⭐ 书 P75
数据仓库的物理模型设计是为逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)
物理模型设计所作工作 ⭐
物理模型的设计所做的工作是估计存储容量,确定数据的存储结构,确定索引,确定数据存放位置,确定存储分配。他是存储的数据模型。
📑 6、数据仓库开发 ⭐
书 P 81-4.2.1 数据仓库开发过程
数据仓库的开发主要是围绕数据仓库功能展开的的,数据仓库的主要功能包括数据获取,数据存储和决策分析,这三个功能模块组成了数据仓库的体系结构。随着决策需求的扩大,数据仓库的数据将迅速增长。数据仓库的开发要适应这种变化,采用螺旋式周期性的开发比较合适。
📑 7、维护与评估阶段
数据仓库维护与评估阶段包括哪三个步骤
书 P 85 - 4.2.1.4
维护与评估阶段包括:**数据仓库增长,数据仓库维护,数据仓库评估。**这三个步骤
每个意思了解一下~
数据仓库评估包括哪三个方面
数据仓库评估包括三个方面:系统性能评定;投资回报分析;数据质量评估。
📑 8、数据质量与数据清洗——了解一下
数据质量问题表现为
1、字段中的虚假值
2、数据值确实
3、不一致的值
4、违反常规的不正确值
5、一个字段有多个用途
6、标码不唯一
数据清洗
1、需要清洗哪些数据
2、在什么地方清洗
3、怎么清洗
4、建立一个数据质量框架
📑 9、数据粒度 与 维度建模
什么是数据粒度?
数据粒度是指数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别越小;相反细化程度越低,粒度级别越高。
数据粒度影响什么?
数据粒度深深影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。
数据仓库的设计需要在数据量大小与查询的详细程度之间做出权衡
📑 10、数据仓库和多维 DBMS 的区别
DW | MDBMS |
---|---|
数据仓库有大量数据 | MDBMS中的数据至少要少一个数据量级 |
数据仓库只适合于少量的灵活访问 | MDBMS适合大量的非预知的数据的访问和分析。 |
数据仓库内存储了很长时间范围内的数据 | MDBMS中存储着比较短时间范围内的数据 |
数据仓库允许分析人员以受限的形式访问数据 | MDBMS 允许自由的访问 |
📑 课后习题
🔖 什么是概念模型? 它的特点是什么? ⭐
将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点
(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。*
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
🔖 比较数据库的概念模型设计与数据仓库的概念模型设计
数据库的概念模型设计主要采用E-R概念模型的设计方法。
数据仓库的概念模型设计主要采用E-R概念模型和面向对象的分析方法。
🔖 什么是逻辑模型?数据仓库的逻辑模型是什么?
逻辑模型:计算机所支持的有E-R图转换成的数据模型,数据的逻辑结构
数据仓库的逻辑模型:星型模型
🔖 数据仓库的逻辑模型与数据库的逻辑模型有什么不同?
数据仓库的逻辑模型:用来构建数据仓库的数据库逻辑模型。
在数据库中,逻辑模型有关系、网状、层次,可以清晰的表示各个关系。
🔖 什么是物理模型?数据仓库的物理模型设计包括哪些工作?
物理模型就是逻辑模型在计算机中的物理结构,其中包括存储结构和存取方法.
数据仓库的物理模型设计的工作包括:估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。