数据仓库与数据挖掘 3

数据仓库建模方法

OLTP系统建模方法

OLTP(在线事务处理)系统中,主要操作是随机读写
为了保证数据一致性、减少冗余,常使用关系模型
在关系模型中,使用三范式规则来减少冗余

OLAP(在线联机分析)

OLAP系统,主要操作是复杂分析查询;关注数据整合,以及分析、处理性能
OLAP根据数据存储的方式不同,又分为ROLAP、MOLAP、HOLAP

OLAP系统分类

ROLAP(Relation OLAP,关系型 OLAP):使用关系模型构建,存储系统一般为RDBMS
MOLAP(Multidimensional OLAP,多维型 OLAP):预先聚合计算,使用多维数组的形式保 存数据结果,加快查询分析时间
HOLAP(Hybrid OLAP,混合架构的 OLAP):ROLAP 和 MOLAP 两者的集成;如低层是关
系型的,高层是多维矩阵型的;查询效率高于ROLAP,低于MOLAP

ROLAP系统建模方法

典型的数据仓库建模方法有ER模型、维度模型、Data Value、Anchor
在这里插入图片描述

维度模型

维度模型中,表被分为维度表、事实表,维度是对事实的一种组织

维度一般包含分类、时间、地域等

相关概念

1. 粒度

粒度(Granularity)是指多维数据集中数据的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。

例如,地址数据中“北京市”比“北京市海淀区”的粒度大。

2.维(Dimension)

是人们观察数据的特定角度,是考虑问题时的一类属性。此类属性的集合构成一个维度(或维),如时间维、地理维等

存放维数据的表称为维表,如表所示就是一个时间维表。维表中的数据具有维层次结构,包含维属性和维成员。
在这里插入图片描述
在这里插入图片描述

3.度量或事实

度量(Measure)是多维数据集中的信息单元,即多维空间中的一个单元,用以存放数据,也称为事实(Fact)。通常是数值型数据并具有可加性。

也就是DW所关心主题的数值表示

4.多维数据集

数据仓库和OLAP服务是基于多维数据模型的,这种模型将多维数据集看作数据方体(data cube)形式。多维数据集可以用一个多维数组来表示,它是维和度量列表的组合表示。

    一个多维数组可以表示为:

(维1,维2,…,维n,度量列表)

在这里插入图片描述

维度模型

维度模型分为星型模型、雪花模型、星座模型

维度模型建立后,方便对数据进行多维分析

维表即为观察事实度量的角度,每个度量表具有多个维表,度量值可在维表的层次上进行汇总统计或下钻细分,例如:可以在时间维度上统计一年的销售额,也可以在地域维度上,下钻每个城区的销售额;这些都是OLAP的多维分析操作(下一节)。(可加性)

星型模型

标准的星型模型,维度只有一层,分析性能最优
在这里插入图片描述

雪花模型

雪花模型具有多层维度,比较接近三范式设计,较为灵活,是星型模型的进一步规范化。去除部分冗余。

在这里插入图片描述

星座模型

星座模型基于多个事实表,事实表之间会共享一些维度表

是大型数据仓库中的常态,是业务增长的结果,与模型设计无关

在这里插入图片描述
例如:对于一个销售量主题和商品存储量主题而言,他们的时间维度和地点维度是一样的,即可公用维表。

OLAP多维分析

OLAP主要操作是复杂查询,可以多表关联,使用COUNT、SUM、AVG等聚合函数
OLAP对复杂查询操作做了直观的定义,包括钻取、切片、切块、旋转
在这里插入图片描述

钻取

对维度不同层次的分析,通过改变维度的层次来变换分析的粒度

钻取包括上卷(Roll-up)、下钻(Drill-down)
上卷(Roll-up),也称为向上钻取,指从低层次到高层次的切换
下钻(Drill-down),指从高层次到低层次的切换

切片(Slice)、切块(Dice)

选择某个维度进行分割称为切片
按照多维进行的切片称为切块
在这里插入图片描述

旋转(Pivot)

对维度方向的互换,类似于交换坐标轴上卷(Roll-up)
在这里插入图片描述

一个复杂的查询统计是一系列OLAP基本操作叠加的结果。

例如,对于表的多维数据集,统计2014年“华东”分区的总销售量的过程是:通过地点维从“城市”上卷到“分区”,对年份维按“年份=2014”和分区维按“分区=‘华东’”进行切片操作,最后聚集总和,如图所示。
在这里插入图片描述

在这里插入图片描述

下一篇实验教程:数据仓库与数据挖掘 4(上)

参考资料

[0] 陈志泊 主编. 数据仓库与数据挖掘(第二版). 清华大学出版社,2019
[1] 陈立伟著,数据仓库与数据挖掘教程,清华大学出版社,2006
[2] 林宇编著. 数据仓库原理与实践,人民邮电出版社,2003。
[3] 彭木根著 数据仓库技术与实现,电子工业出版社,2002.6。
[4] [加]韩家炜、[加]坎伯,范明等译,数据挖掘概念与技术,机械工业出版社,2005。
[5] 张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2003。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小邹子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值