标准差
标准差的意义:
各个样本点到均值的距离的平均。描述的是样本点的”散布度”。
方差
方差的意义:
标准差的平方
之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体标准差,即统计上所谓的“无偏估计”。
协方差
协方差的意义:
标准差和方差一般都是描述一维数组的,但现实生活中我们常常遇到含有二维甚至多维的数据集。协方差就是度量两个特征的关系。如果协方差的值为正,表示两个特征呈正相关;如果为负,表示两个特征呈负相关;如果为0,表示两个特征相互独立。
协方差的性质:
例:计算V1:[4,5,7,8], V2:[8,2,7,3]两个维度的协方差
V1的平均值=(4+5+7+8)/4 = 6
V2的平均值=(8+2+7+3)/4 = 5
Cov(v1, v2) = (4-6)(8-5) + (5-6)(2-5) + (7-6)(7-5) +(8-6)(3-5) = -5
例:协方差的计算,计算A = 的协方差矩阵。(以一列为一个特征)
V1的均值 = (2+1)/2 = 1.5
V2的均值 = (5+7)/2 = 6
V3的均值 = (3+6)/2=4.5
Cov(v1, v1) = var(v1) = (2-1.5)2+(1-1.5)2 = 0.5
Cov(v2, v2) = var(v2) = (5-6)2+(7-6)2 = 2
Cov(v3, v3) = var(v3) = (3-4.5)2+(6-4.5)2 = 4.5
Cov(v1, v2) = (2-1.5)(5-6)+(1-1.5)(7-6) = 0
Cov(v1, v3) = (2-1.5)(3-4.5)+(1-1.5)(6-4.5) = -1.5
Cov(v2, v3) = (5-6)(3-4.5)+(7-6)(6-4.5) = 3
所以其协方差矩阵为Cov_A =
对Cov_A矩阵求秩,rank(Cov_A) <= 2,即降维后的数据维度为rank(Cov_A)