1
维度和度量
维度:即观察数据的角度。
比如员工数据,可以从性别角度来分析,也可以更加细化,
从入职时间或者地区的维度来观察。维度是一组离散的值,比如说性别中的男和女,或者时
间维度上的每一个独立的日期。因此在统计时可以将维度值相同的记录聚合在一起,然后应
用聚合函数做累加、平均、最大和最小值等聚合计算。
度量:即被聚合(观察)的统计值,也就是聚合运算的结果。
比如说员工数据中不同性
别员工的人数,又或者说在同一年入职的员工有多少。
2 Cube
和
Cuboid
有了维度跟度量,一个数据表或者数据模型上的所有字段就可以分类了,它们要么是维
度,要么是度量(可以被聚合)。于是就有了根据维度和度量做预计算的
Cube
理论。
给定一个数据模型,我们可以对其上的所有维度进行聚合,对于
N
个维度来说,组合
`
的所有可能性共有
2
n
种。对于每一种维度的组合,将度量值做聚合计算,然后将结果保存
为一个
物化视图
,称为
Cuboid
。所有维度组合的
Cuboid
作为一个整体,称为
Cube
。
下面举一个简单的例子说明,假设有一个电商的销售数据集,其中维度包括时间
[time]
、
商品
[item]
、地区
[location]
和供应商
[supplier]
,度量为销售额。那么所有维度的组合就有
2
4
=
16
种,如下图所示:
![](https://img-blog.csdnimg.cn/20210716102938366.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NvbmdfcXVhbl8=,size_16,color_FFFFFF,t_70)
一维度(
1D
)的组合有:
[time]
、
[item]
、
[location]
和
[supplier]4
种;
二维度(
2D
)的组合有:
[time, item]
、
[time, location]
、
[time,supplier]
、
[item, location]
、
[item, supplier]
、
[location, supplier]3
种;
三维度(
3D
)的组合也有
4
种;
最后还有零维度(
0D
)和四维度(
4D
)各有一种,总共
16
种。
注意:每一种维度组合就是一个
Cuboid
,
16
个
Cuboid
整体就是一个
Cube
。