协方差
方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。
协方差衡量的是两个变量之间的相关性,如:
正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大,要么同时变小,这时协方差是正的;
负相关:两个变量具有相反的变化趋势(也称反方向),一个变大,另一个变小,这时协方差是负的;
无相关:两个变量没有相关关系,这时协方差为0。
协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。
方差是协方差的一种特殊情况,也就是两个变量完全相同。
协方差的公式定义,期望值(或均值)分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差Cov(X, Y)定义为:
例子:变量A有5个值 [5, 10, 6, 15, 2],变量B有5个值 [6, 9, 7, 10, 3],两个变量的协方差计算如下:
E[A] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6
E[B] = (6 + 9 + 7 + 10 + 3) / 5 = 7
A - E[A] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]
B - E[B] = [ -1 , 2 , 0 , 3, -4 ]
(A - E[A]) * (B - E[B]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52
Cov(A, B) = E[(A - E[A]) * (B - E[B])] = 52 / 5 = 10.4
可以看出A和B是正相关关系,但是具体正相关的程度是多少,从协方差中是看不出来的。
如果A和B的量纲(单位)一样,用协方差表示的相关程度还有点作用,但是如果两个变量采用不同的量纲,它们的协方差在数值上具有很大的差异,这就不能用来表示相关程度了。这需要另外一个知识:相关系数。
注意:协方差也可以用向量的知识来描述,如计算出两个向量的内积,为正表示正相关,为负表示负相关,为零表示无相关。
相关系数
下面介绍的是 Pearson 相关系数(皮尔逊相关系数),公式如下:
表示 X 的标准差,
表示 Y 的标准差。
Pearson 相关系数的取值范围是 [-1, 1]:
等于0:表示没有相关关系;
小于0:表示负相关关系,越接近 -1 时表示负相关关系越显著;
大于0:表示正相关关系,越接近 1 时表示正相关关系越显著。
如图:
根据上面的协方差的例子,A的标准差为 4.49,B的标准差为 2.44,得出A和B的相关系数:
ρAB = 10.4 / (4.49 * 2.44) = 0.94
看出A和B是正相关关系,且A和B具有较大的相关程度。
即使两个变量具有不同量纲,但是它们的 Pearson 相关系数始终在[-1, 1]之间,这样就有利于判断两个变量的相关程度了。