协方差矩阵
- 均值描述的是样本集合中的平衡点。
- 标准差描述的是样本集合中各个样本点到均值之间距离的平均值,即数据的分散程度。
方差是标准差的平方。方差是协方差的一种特殊情况,即当两个变量是相同的情况 。
引出协方差
前面的标准差,方差一般用来描述一维的,现实中我们遇到的大多是多维的,这时候虽然可以每一维独立计算出方差,但信息单一,这就引出协方差。
简单地说:协方差就是这样一种用来度量两个随机变量关系的统计量。
通俗的说:两个变量之间是否同时偏离均值。
度量各个维度偏离其均值
也可以写成和期望有关:
协方差公式定义
解释:p(x,y) 是 x,y 的二维概率分布函数,颜色深浅表示进概率密度的大小,p(x,y) 整个区域二重积分得到1,这个就是下面圆的背景知识了。下面是协方差的三种不同意义情况
当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。
怎样将这3种相关情况,用一个简单的数字表达出来呢?
- 在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;
- 在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;
- 在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;
- 在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。
当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。
当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 。
当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0。
所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是 协方差 cov(X, Y) = E(X-EX)(Y-EY)。
- 当 cov(X, Y)>0时,表明 X与Y 正相关;
- 当 cov(X, Y)<0时,表明X与Y负相关;
- 当 cov(X, Y)=0时,表明X与Y不相关。
相关系数
如果X 与Y 是统计独立的,那么二者之间的协方差就是0,这是因为
但是反过来并不成立,即如果X 与Y 的协方差为0,二者并不一定是统计独立的。
取决于协方差的相关性η
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差,它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
协方差表示线性相关的方向,相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。
协方差矩阵
协方差解决的也只是二维的问题,那么继续维数上升呢,就要计算多个协方差,这个道理很好懂。
举个例子
协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方,对于机器学习领域的PCA来说,如果遇到的矩阵不是方阵,需要计算他的协方差矩阵来进行下一步计算,因为协方差矩阵一定是方阵,而特征值分解针对的必须是方阵,SVD针对的可以是非方阵情况。
协方差矩阵在主成分分析中主成分分析有关键作用。主成分分析就是把协方差矩阵做一个奇异值分解,求出最大的奇异值的特征方向。
协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,这点要记牢了。