变量之间的相关性:协方差、相关系数

协方差


方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。
 
协方差衡量的是两个变量之间的相关性,如:
 
正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大,要么同时变小,这时协方差是正的;
 
负相关:两个变量具有相反的变化趋势(也称反方向),一个变大,另一个变小,这时协方差是负的;
 
无相关:两个变量没有相关关系,这时协方差为0。
 
协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。
 
方差是协方差的一种特殊情况,也就是两个变量完全相同。
 
协方差的公式定义,期望值(或均值)分别为 E[X] 与 E[Y] 的两个实随机变量 X 与 Y 之间的协方差Cov(X, Y)定义为:
 

例子:变量A有5个值 [5, 10, 6, 15, 2],变量B有5个值 [6, 9, 7, 10, 3],两个变量的协方差计算如下:
 

E[A] = (5 + 10 + 6 + 15 + 2) / 5 = 7.6

E[B] = (6 + 9 + 7 + 10 + 3) / 5 = 7

A - E[A] = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ]

B - E[B] = [ -1 , 2 , 0 , 3, -4 ]

(A - E[A]) * (B - E[B]) = [ -2.6 , 2.4 , -1.6 , 7.4, -5.6 ] * [ -1 , 2 , 0 , 3, -4 ] = 52

Cov(A, B) = E[(A - E[A]) * (B - E[B])] = 52 / 5 = 10.4

可以看出A和B是正相关关系,但是具体正相关的程度是多少,从协方差中是看不出来的。
 
如果A和B的量纲(单位)一样,用协方差表示的相关程度还有点作用,但是如果两个变量采用不同的量纲,它们的协方差在数值上具有很大的差异,这就不能用来表示相关程度了。这需要另外一个知识:相关系数。
 
注意:协方差也可以用向量的知识来描述,如计算出两个向量的内积,为正表示正相关,为负表示负相关,为零表示无相关。
 
 

相关系数


下面介绍的是 Pearson 相关系数(皮尔逊相关系数),公式如下:
 

   表示 X 的标准差,   表示 Y 的标准差。
 
Pearson 相关系数的取值范围是 [-1, 1]:
 
等于0:表示没有相关关系;
 
小于0:表示负相关关系,越接近 -1 时表示负相关关系越显著;
 
大于0:表示正相关关系,越接近 1 时表示正相关关系越显著。
 
如图:
 

根据上面的协方差的例子,A的标准差为 4.49,B的标准差为 2.44,得出A和B的相关系数:
 

ρAB 10.4 / (4.49 * 2.44) =  0.94

看出A和B是正相关关系,且A和B具有较大的相关程度。
 
即使两个变量具有不同量纲,但是它们的 Pearson 相关系数始终在[-1, 1]之间,这样就有利于判断两个变量的相关程度了。
 
 
 
  • 8
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值