维度分析
数据仓库中的数据分析处理,其实就是对数据按照维度进行分析
维度
大白话:以不同的视角去看待数据
维度是事务的特征,如颜色、区域、时间等,可以根据不同的维度来对指标进行分析对比。
维度也可以分为:
- 定性维度:在事务的特性上去看待数据,按照地理位置分布计算指标、按照颜色来计算
- 定量维度:在事务的数值上去看待数据,比如:按照分数的区间统计各区间的学生人数
指标
大白话:被看待的数据主题
指标是衡量事务发展的标准,也叫度量
,如价格,销量等;指标可以求和、求平均值等计算
指标也分为:
- 绝对数值指标:体现的是绝对值上的数据指标结果。比如 访问量、购买量、客单价
- 相对数值指标:体现的是在相对值上的数据指标结果。比如:课程通过率、访问转化率
维度的分层和分级
维度并不是固定的,维度都可以对其进行细化得到其子维度。
在维度上,会有层级关系
表示上层和下层关系,我们叫做分层
同层之间的关系我们叫做分级
如图,课程维度这里就是 2层,4等级。
维度的上卷和下钻
上卷:从当前维度向上找其上层维度进行统计分析
下钻:从当前维度向下找其下层维度进行统计分析
数仓建模
两种常见的数仓设计
- 三范式建模
尽量减少数据冗余,以关联的形式去关联数据
优点:空间占用小,数据冗余少
缺点:查询要用很多的JOIN
- 维度建模
不在意数据冗余,尽量为了维度而服务
优点:查询的时候不需要多数的JOIN
缺点:数据占用空间大
对于现代的企业来说,空间换性能,是划算的。因为硬盘便宜(相对)。