目录
I.大纲
多维数据透视分析——针对对象是表结构数据。
II. 重点
数据透视分析:对零散数据进行汇总分析
2种手段:
对零散数据进行一定规则下的透视(一级)
对零散数据深度数据挖掘(二级、三级)
2.1 多维数据模型
多维数据模型又叫 多维数据集、立方体(cube),指的是 相互间通过某种联系被关联在一起的不同类别的数据集合。
多维数据集可从多角度用数据全面映射某种业务的实际状况。
创建多维数据模型的过程,叫做建模。
(建模分2种:搭建数据模型(简单),搭建分析所需要的数学模型(难))。
多个不同维度下的业务数据描述,需要有多个业务维度囊括的数据环境。
需要有OLAP(连接信息孤岛,创建多维数据模型)
2.2 多维数据模型创建方法
2.2.1 相邻两表间连接汇总
通过【公共字段】连接两表,选择不同表中字段分别作为 维度、度量,选择汇总计算规则。
2.2.2 影响连接汇总的三要素
(1)筛选器方向
2种:单向和双向
筛选器方向决定维度与度量的出处 (筛选的一侧是维度,结果是度量)
(2)对应关系
分为三类,决定连接汇总的结果
- 一对一
- 多对一
- 多对多
(3)汇总角色
维度
度量
OLAP工具,不同厂商有不同的工具:
Brio——类似数据库
PowerBI——有自己独有的逻辑,也可以共用数据库逻辑
A.筛选器方向
筛选器方向决定维度与度量的出处、不可逆筛选器方向做筛选
维度汇总度量,维度筛选度量,;筛选器可以决定谁可以当维度,谁可以当度量。
(1)单向
箭头出发一侧为维度,指向一侧为度量;(维度→度量)
(2)双向
两表间互为筛选
OLAP无表的连接方向,也没有表的方向;
OLAP有主附表之分,根据提供度量的表来作为主表,出所有的数据范围。
B.对应关系
(1)1对一 (1-公共字段无重复值的)
主键与主键相连,两表具有相同主键,这种一把不会出现。
1对一,主键与主键相连。(两表具有相同主键,并且作为公共字段生成一对一连接),一般不会出现,因为可以合成一张表来用了。
遇到一对一的时候,要去判断是不是真的主键对主键。
(2)多对多,非主键相连;尽量避免使用这种连接关系。
(3)1对多,主键连接非主键 (单向)
(4)1对多,主键连接非主键 (双向)
相邻量表连接时,应尽量使用多对一的关系,双向筛选方向时,多表可筛选一表,但筛选方式不同于一表筛选多表的筛选方式。
C.两种汇总方式
(1)类型1:合并维度,汇总度量、维度筛选度量
数据库的汇总方式;相同维度合并在一起。
(2)合并维度,汇总维度下不同公共字段对应的度量、维度选取公共字段,公共字段再去筛选度量——一般要避免使用这种。
(分了3步,维度先选公共字段,公共字段再去筛选度量)
2.3 相邻两表连接总结
2.4 跨表筛选(筛选路径不通,则无法正确汇总)
1
若都为双向,则筛选路径通;但是数据结果不对,汇总规则用的类型二,不符合业务要求。
2.5 交叉连接
交叉连接下只有一条路径为有效路径。
有效路径用实线显示。
2.6 三种模式(星型、雪花、星座)
2.6.1 星型模式
一个事实表与多个维度表相连
可观测业务行为的好坏程度;
2.6.2 雪花模式
维度表与维度表相连;进行维度的扩展
eg: 产品表与品牌表 ——雪花模式;产品表也可连接销售,库存,也可看到品牌下的销售好坏程度;
可在产品维度下,拓展到品牌维度
2.6.3 星座模式
多个事实表共用某些维度表
eg:销售表、库存表、采购进货单表,都可以通过产品编号与产品表相连,就是星座模式。
把进销存连成一体,通过一个共用的维度去连接,作为标识。
2.7 5W2H思维模型
- what——分析对象是啥
- who——参与角色是谁
- when——时间维度
- where——空间维度
- why——为啥分析
- how much——分析的度量
- how to do——如何做
【示例】——销售管理分析
从发现商业机会开始到截止,进行管理的销售体系。
商机数由上到小,越来越小;成交可能性越高。
按照商机量来绘画图形,就可用销售漏斗模型
核心维度是商机维度 和时间维度。
III. 基本透视规则
3.1 基本规则
合计规则:sum
计数规则:count-非空计数、distinctcount去重计数
平均规则:average
最大值规则:max
最小值规则: min
平均值陷阱:
用average求得的总平均值是主键的总平均值。
若计算所有客户的总平均,需用公式来计算。
筛选维度与汇总维度——利用切片器可。
直接针对度量的——汇总维度
影响筛选条件的——筛选维度
3.2 透视规则扩展
进一步展示程度,来让决策者理解业务好坏。
任何的汇总结果都不能脱离时间维度。脱离的话,就没有意义。
环比 跨月 同比 跨年;
同环比增长率:差异百分比来实现。
对比百分比公式 :倾向于 部分占总体的占比关系;
差异百分比:倾向于多了多少,少了多少,就需要差异。实际值大于对比值,(正值)差异越大,是好;
3.3 行间透视
意义:针对每行值分别求得整体汇总值、类似于开窗函数。
IV. 多维透视分析应用
4.1 业务场景
4.1.1 经销商进销存情况分析
分析目的:帮助经销商优化进销存各环节业务流程行为,实现进销存一体化管理,加快资金运转速度,实现销售利润最大化的目的。
()
(2)搭建多维数据模型
(3)制作展示界面