分析多元数据的第一步是计算均值向量和方差-协方差矩阵。
考虑以下矩阵:
可以通过其均值向量和方差-协方差矩阵描述测量5个观测值(测量3个变量)的集合。 例如,从左到右的三个变量分别是某个对象的长度,宽度和高度。 每个行向量Xi是对三个变量(或分量)的另一观察。
均值向量由每个变量的均值组成,方差-协方差矩阵由沿着主对角线的变量的方差和其他矩阵位置中每对变量之间的协方差组成。
用于计算变量X和Y的协方差的公式为:
我们通过对上面例子的计算可以得到如下结果:
其中均值向量包含三个变量的算术平均值,并且(无偏)方差-协方差矩阵S的计算公式为:
在此示例中,n = 5。
因此,0.025是长度变量的方差,0.0075是长度变量和宽度变量之间的协方差,0.00175是长度变量和高度变量之间的协方差,0.007是宽度变量的方差,0.00135是变量之间的协方差 宽度和高度变量,0.00043是高度变量的方差。
平均矢量通常被称为质心,方差-协方差矩阵被称为色散或色散矩阵。 而且,术语方差-协方差矩阵和协方差矩阵可互换使用。