这篇博客主要介绍协方差与协方差矩阵的定义及其计算
首先给出常用的一些数理统计的计算公式:
均值:
标准差:
方差:
这几个公式大家肯定都是比较熟悉的,这里需要注意的地方是标准差以及方差计算时:分母是n-1,这是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。
均值描述的是样本集合的中间点,标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均,也就是样本的散布度。
标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多的内在联系,协方差就是这样一种用来度量两个随机变量关系的统计量,其结果表示两个随机变量 X 与 Y 之间相互关系,其定义如下:
从协方差的定义上我们也可以看出一些显而易见的性质,如:
那么协方差是如何表示两个随机变量 X 与 Y 之间相互关系的呢,通过下述三张图片来进行讲解:
当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。
当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。
当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“ 不相关”。
看上述3张图,在每张图的
区域(1)中有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
对于第一张图,当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。
对于第二张图,当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和 (3)中,所以平均来说,有(X-EX)(Y-EY)<0 。
对于第三张图,当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0 。
用协方差来表征这种关系:
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
经过上述讲解,各位应该对协方差有所了解,而对于协方差矩阵而言,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。
在具体实现时,可以通过先对样本进行中心化( x i = x i − 1 / m ∑ i = 1 m x i x_i = x_i - 1/m\sum_{i=1}^mx_i xi=xi−1/m∑i=1mxi),然后利用 X X T XX^T XXT计算样本的协方差矩阵,注意此时是没有添加协方差前面的系数的,如果需要添加系数,再处理一下就行也就是除以 m − 1 m-1 m−1.
参考文献: