📖 本文目录
📖第三章——数据仓库与数据挖掘教程——第二版
📑 1、OLAP 与 OLTP的关系以及 OLAP的特点
书P 39 - 倒数第二段
OLAP 是在 OLTP 的基础上发展起来的,OLTP 是以数据库为基础的,面对的是操作人员和底层管理人员,对基本数据的查询和增、删、改等进行处理。而 OLAP 是以数据仓库为基础的数据分析处理。
OLAP的两个特点
- 在线性(On Line),体现为对用户请求的快速响应和交互式操作,它的实现是由 客户机 / 服务器 这种体系结构在网络环境上完成的
- 多维分析 这个也是OLAP的核心所在
📑 2、OLAP的简单定义与四个特征和十二个准则
书P 40 - 2
联机分析系统是共享多维信息的快速分析。
四个特征分别是:
- 快速性
- 可分析性
- 多维性
- 信息型
十二个准则分别是(了解一下):
- 多维概念视图
- 透明性
- 可访问性
- 一直稳定的报表性能
- 客户 / 服务器体系结构
- 维的等同性
- 动态的稀疏矩阵处理
- 多用户支持能力
- 非限定的跨维操作
- 直观的数据操作
- 灵活的报表生成
- 不受限制的维和聚集层次
📑 3、OLAP 的基本概念
基本概念 书 P 43
OLAP 是针对特定问题的联机数据访问和分析,通过对信息进行传递,稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
什么是维 ?
维是人们观察数据的特定角度。
什么是维层次 ?
人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,通常称这多个描述方面为维的层次。
📚 举例:例如描述事件维度这个维,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年就是时间维的层次。
什么是维成员?
维的一个取值称之为该维的一个维成员,如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成的。
📑 4、MOLAP 与 ROLAP
MOLAP( Multi-dimension OLAP):多维联机分析处理是基于多维数据库的OLAP。
ROLAP(Relation OLAP):关系联机分析处理是基于关系数据库的OLAP。
📑 5、多维分析基本操作的种类
书 P 52-3.4.1
基本的多维数据分析操作包括 切片 、 切块 、旋转 、钻取等。
🔖 切片
书 P 52 - 3.4.1-1
切片就是在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。
🔖 切块
书 P53 - 2
切块有如下两种情况
- 在多维数组的某一个维上选定某一区间的维成员操作
- 选定多维数组的一个三维子集的操作。
🔖 钻取
书 P53 - 3
钻取(Drill)分为 向下钻取 和 向上钻取操作。
- 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据
- 相反的操作为向上钻取。
📚 钻取的深度是与维所划分的层次相对应。
🔖 旋转
书 P 54 - 4
通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。
📑 6、广义 OLAP 功能
基本代理操作
- 示警报告
- 时间报告
- 异常报告
数据分析模型分为哪几类
书 P 56 - 3.4.3-2
Codd 将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式模型
绝对模型
- 它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。该模型查询比较简单,综合路径是预先定义好的,用户交互少。
解释模型
- 它也属于静态数据分析,分析人员利用系统已有的多层次的总和路径层层细化(进行向下钻取操作)找出事实发生的原因。
思考模型
- 它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。
📚 **注意:**分析人员在引入确定的变量或公式关系时,需创建大量的综合路径。
公式模型
- 它的动态数据分析能力更强,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后产生的结果。
📑 7、数据立方
书 P 58
数据立方体是实现多维数据查询与分析的一种重要手段。实质上数据立方体就是数据仓库结构图中综合数据层(轻度和高度)
数据立方体是在所有可能组合的维上进行分组聚集运算。
什么是维属性?
维属性是观察数据对象的角度。
什么是度量属性?
度量属性反应数据对象的特征。
📑 课后作业
🔖 OLAP 准则中主要准则有哪些(了解一下)?
书 P 41
1、多维概念视图
2、透明性
3、可访问性
4、一致稳定的报表性能
5、客户 / 服务器 体系结构
6、维的等同性
7、动态的稀疏矩阵处理
8、多用户支持能力
9、非限定的跨维操作
10、直观的数据操作
11、灵活的报表生成
12、不受限制的维和聚集层次
🔖 什么是维?关系数据库是二维数据么?如何理解多维数据?
书P 43
维:指的是人们观察数据的特定角度。
关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。
多维数据就是从多个特定的角度来观察数据。
🔖 比较 ROLAP 与 MOLAP 在数据存储、技术及特点上的不同
在数据存储速度上
ROLAP | MOLAP |
---|---|
ROLAP 服务器需要将 SQL 语句转化为多维存储语句, 临时“拼出”多维数据立方体。因此ROLAP响应时间较长。 | MOLAP在数据存储速度上性能好,响应速度快. |
数据存储容量上
ROLAP | MOLAP |
---|---|
ROLAP 使用传统的关系型数据库的存储方法,在存储容量上没有限制 | MOLAP通常采用多平面叠加成立体的方式存放数据。 |
多维计算的能力
MOLAP | ROLAP |
---|---|
MOLAP能够支持高性能的决策支持计算。 | ROLAP无法完成多行的计算和维之间的计算。 |
维度变化的适应性
MOLAP | ROLAP |
---|---|
MOLAP增加新的维度,则多维数据库通常需要重新建立。 | ROLAP对于维表的变更有很好的适应性 |
数据变化的适应性
MOLAP | ROLAP |
---|---|
当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。 | 在ROLAP中灵活性较好,对于数据变化的适应性高。 |
软硬件平台的适应性
MOLAP | ROLAP |
---|---|
MOLAP相对较差。 | ROLAP对软硬件平台的适应性很好 |
🔖 多维数据显示的经验规则是什么?
多维数据的显示只能在平面上展现出来,用多维数据库显示时,不能同时显示三维以上数据,但可以固定一些维成员,重点显示两维维数据。最有效表示多维数据使用多维类型结构(MTS),即每一维用一条线段表示,维度中每一个成员都用线段上的一个区间表示。还可以使用行、列和页表三个显示组来表示。
经验规则:
-
将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员;
-
当维度嵌套在行货列中时,考虑到垂直空间比水平空间更有用,所以讲维度嵌套在列中比嵌套在行中要好;
-
在决定数据的屏幕显示方式前,应首先弄清楚需要查找和分析比较的内容;
🔖 广义 OLAP 功能如何提高多维数据分析能力?
广义OLAP功能主要是通过四个模型逐层深入从而提高多维数据分析能力。这四个模型分别是:
绝对模型
- 它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。该模型查询比较简单,综合路径是预先定义好的,用户交互少。
解释模型
- 它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。
思考模型
- 它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。分析人员在引入确定的变量或公式关系时,必须创建大量的综合路径。
公式模型
- 它的动态数据分析能力更高,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。