-
第三章 联机分析处理 (On Line Analytical Processing,OLAP)
-
3.1 OLAP概念
-
以DW为基础的数据分析处理。
-
特点
-
1.线性(On Line),由网络上的C/S结构完成。
-
2.多维分析,这也是OLAP的核心所在。
-
-
3.1.1 OLAP定义
-
联机分析处理是共享多维信息的快速分析。
-
四个特征
-
1、快速性
-
2、可分析性
-
3、多维性
-
4、信息性
-
-
-
3.1.2 OLAP准则
-
12条准则,其主要的准则有以下四条:
-
(1)多维数据分析;
-
(2)客户/服务器结构;
-
(3)多用户支持;
-
(4)一致的报表性能等。
-
数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。
-
-
-
-
3.1.3 OLAP的基本概念
-
(1)变量:描述数据“是什么”。
-
(2)维:观察数据的特定角度。
-
如产品维、顾客维、时间维等。
-
-
(3)维的层次:数据的细节不同程度。
-
如日、月、季、年是时间维的层次。
-
-
(4)维成员:维的一个取值称为该维的一个维成员。
-
如“某年某月某日”是时间维的一个成员。
-
-
(5)多维数组:(维1,维2,……,维n,变量)
-
一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。(元组)
-
-
(6)数据单元(单元格):多维数组的取值称为数据单元。
-
-
-
3.2 OLAP的数据模型
-
3.2.1 MOLAP数据模型
-
Multidimensional Online Analytical Processing
-
基于多维数据库存储方式建立的OLAP
-
表现为“超立方”结构,采用类似于多维数组的结构。
-
-
3.2.2 ROLAP数据模型
-
Relational Online Analytical Processing
-
是基于关系数据库的OLAP。
-
是一个平面结构,用关系数据库表示多维数据时,采用星型模型。
-
-
3.2.3 MOLAP与ROLAP的比较
-
1.数据存取速度(MOLAP的响应速度快 )
-
M
-
R需要转化SQL语句
-
-
2.数据存储的容量( ROLAP存储容量上没有限制)
-
R
-
M立体方式存放数据,数据量级不大
-
-
3.多维计算的能力(MOLAP能够支持高性能计算 )
-
M
-
R无法多行/维计算
-
-
4.维度变化的适应性(ROLAP对于维表的变更有很好的适应性 )
-
R
-
M增维需重建DB
-
-
5.数据变化的适应性( ROLAP对于数据变化的适应性高 )
-
R
-
M在数据频繁变化时需要大量重新计算
-
-
6.软硬件平台的适应性(ROLAP适应性很好 )
-
R
-
-
7.元数据管理
-
均无成形标准。
-
-
-
-
3.3 多维数据的显示
-
3.3.1 多维数据显示方法
-
多维数据的显示只能在平面上展现出来。
-
-
3.3.2 多维类型结构 (Multidimensional Type System,MTS)
-
每一个维度用一条线段来表示。维度中的每一个成员都用线段上的一个单位区间来表示。
-
-
3.3.3 多维数据的分析视图
-
平面显示多维数据,利用行、列和页面三个显示组表示。
-
绘图
-
1、拆分行、列维
-
2、拼接嵌套
-
-
-
-
3.4 OLAP多维数据分析
-
目的是为管理决策人员通过一种灵活的多维数据分析手段,提供辅助决策信息。
-
加入数据分析模型和商业分析模型称为广义OLAP
-
3.4.1 多维数据分析的基本操作 (切片、切块、旋转、钻取)
-
1.切片
-
“降维”的过程
-
空间中用一个平面与立方体相交
-
三维数据降为二维数据。
-
-
-
2. 切块
-
从三维空间取出三维立方体。
-
-
3. 钻取
-
维度的细分。
-
向下钻取(drill down )
-
向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。
-
放大地图:国-省-市-区
-
-
向上钻取(drill up )
-
向上钻取获取概括性的数据。
-
缩小地图:区-市-省-国
-
-
-
4.旋转
-
得到不同视角的数据。
-
“横看成岭侧成峰,远近高低各不同。”
-
-
转置
-
相当于平面数据将坐标轴旋转。
-
-
-
-
3.4.2 多维数据分析实例
-
3.4.3 广义OLAP功能
-
1、基本代理操作
-
当系统处于某种特殊状态时“代理”提醒分析员。
-
(1)示警报告
-
定义条件提醒分析员去分析。
-
如每日报告完成或月定货完成等通知分析员作分析。
-
-
-
(2)时间报告
-
按日历和时钟提醒。
-
-
(3)异常报告
-
超出边界条件时提醒。
-
-
-
2、数据分析模型
-
(1)绝对模型
-
通过比较历史数据值或行为来描述过去发生的事实。
-
-
(2)解释模型
-
利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。
-
-
(3)思考模型
-
说明在一维或多维上引入一组具体变量或参数后将会发生什么。
-
-
(4)公式模型
-
在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。
-
-
-
3.商业分析模型
-
(1)分销渠道的分析模型(2)客户利润贡献度模型(3)客户关系(信用)优化模型(4)风险评估模型
-
-
-
3.4.4 数据立方体
-
1.概述
-
即数据仓库结构图中的综合数据层(轻度和高度)。
-
OLAP和数据仓库通常预先计算好不同细节层次和不同维属性集合上的聚集,并把聚集的结果存储到物理磁盘上(称为物化)。
-
在所有可能组合的维上进行分组聚集运算(group by 操作)的总和。
-
聚集函数有:sum( )、count( )、average( )
-
对于一个具有三个维属性 A、B、C 和一个度量属性 M 的数据集R(A,B,C,M).
-
其对应的数据立方体是在维属性集{ },{A},{B},{C},{AB},{AC},{BC},{ABC}上分别对度量属性进行聚集操作后的并集。
-
{ }表示进行聚集运算{*,*,*,聚集函数 (M)};
-
{A}表示进行聚集运算{A,*,*,聚集函数(M)}等。
-
-
-
-
2.典型的压缩型数据立方体
-
(1)冰山立方体
-
在冰山立方体的生成计算中,仅聚集高于(或低于)某个阈值的子立方体。
-
数据的筛选
-
-
(2)紧凑数据立方体生成方法
-
用一条数据来代表之前表中的多条数据(元组压缩)
-
如(产品,地区,时间,销售渠道,销售额)
-
-
-
(3)外壳片段立方体
-
(4)流式数据立方体
-
-
-
-
数据仓库与数据挖掘(第三版)陈文伟思维导图 第三章 联机分析处理 (整理复习)
于 2024-03-20 16:50:24 首次发布