协方差与相关系数-“傻傻”也能分清

协方差

协方差(covariance) 的主要思想之一,其可以将数据分为三类关系:
计算公式

  • 正向趋势的关系(slope > 0)
    在这里插入图片描述
  • 负向趋势的关系(slope < 0)
    在这里插入图片描述
  • 无任何趋势的关系(slope = 0)
    在这里插入图片描述

协方差的计算公式暗示,协方差本身并不能告诉我们相关性直线的斜率(陡峭或平坦),也不能告诉我们样本是否靠近相关性直线,它仅仅告诉我们两变量之间的相关性直线的斜率是正还是负

协方差本身的意义难以诠释,故我们不会以计算协方差为目标。但是计算协方差是其他计算的基础,例如相关系数(correlation)

总的来说:协方差可以理解成两个变量之间的方差,其取值可以是负无穷到正无穷,它可以表示两个变量之间的变化趋势,但是不能表示它们之间的程度

协方差对数据的scale敏感,使其不能揭示数据间的相关性程度。
比如:左边的数据较右边的数据更接近相关性直线,左边数据对应的协方差为102;右边数据对应的协方差为381,远大于左侧数据的协方差。将右侧数据同时缩小4倍后,数据距离相关性直线的距离未发生改变,但对应的协方差变为24,小于原来的协方差,也小于左侧数据的协方差
在这里插入图片描述
总结:协方差是可以描述3类相关关系,包括正相关(协方差>0)、负相关(协方差<0)和无相关(协方差=0)。因为协方差对数据的scale异常敏感,故其本身的意义很难解读,但是它确实计算相关系数和其他指标的基础。

**正因为协方差的值不具有具体意义,对数据scale敏感,所以进一步对协方差进行拓展,比如接下来介绍的相关系数correlation

皮尔森相关系数

在这里插入图片描述
从上面的公式中可以看出:相关系数的计算公式中包括x与y的协方差、x的方差和y的方差。故计算x与y的协方差是计算相关系数的基础。分母的作用是将协方差的结果调整至[-1,1],故相关系数不受数据scale的影响。

取值 [-1,1] (数值越接近0,相关性越弱,正负表示方向)

[-1,0] : 从强负相关到弱负相关到无相关
[0,1] :从无相关到弱正相关到强正相关
在这里插入图片描述

相关系数的p value

如果两个变量具有相关性,比如说他们的相关系数为0.8,那么他们之间的相关性是真实的吗?回答这个问题,也就是回答他们间的相关系数是否具有统计显著性,而统计中判断统计显著性的方法就是求p值。

相关系数的p值:数据越多,p值越小,置信度越高。 在统计学中,p值代表随机样本具有某种强度相关性(如r=0.8)或者较该强度更强相关性(r>0.8)的可能性。p值越小,置信度越高

如下图,从左到右,同样的相关性系数,显然样本越多,可信度越高,相对应p值越小。
在这里插入图片描述

皮尔森相关系数与R2

前面我们提及r越接近±1,直线的预测能力就越准确,但是如何量化不同r之间的预测准确性呢?如分别对r为0.7和0.5的数据做预测,到底0.7的值比0.5值高多少预测能力呢?

这个问题很难再用相关系数进行回答,而应该用R2, R2=r x r。

如果r=0.9(显著),则R2 =0.81,说明两变量间的关系可以较好的解释数据的变异(也就是说,x与y的相关性可以解释81%y的变异)。
如果r=0.7(显著),则R2 =0.7 x 0.7=0.5,说明x与y的相关性可以解释50%y变异。
如果r=0.5(显著),则R2 =0.5 x 0.5=0.25,说明两变量间的关系不能较好解释变异,相反还有解释75%变异的其他因素。

对于前面的问题:如分别对r为0.7和0.5的数据做预测,到底0.7的值比0.5值高多少预测能力呢?对于r=0.7和r=0.5,前者R2是后者R2的2倍,故r=0.7的预测性能是r=0.5预测性能的两倍。

在这里插入图片描述
再举个例子,结合上图,

如何量化小鼠体积和体重关系解释的变异呢?这就需要用到R2。具体计算(公式见上方截图):R2= 拟合直线解释的变异(VAR(mean)-VAR(fit))占均值变异(VAR(mean))的百分比
此处计算得出R2为81%,代表围绕拟合直线的变异较围绕均值变异少81%,表示由小鼠体积和体重关系解释的变异占体重总体变异的81%,说明小鼠体重的绝大部分变异可以由小鼠体积与小鼠体重的关系解释。

反之亦然:
在这里插入图片描述

计算小鼠做某件事的时间与小鼠体重关系所解释小鼠体重变异的百分比,方法同前,R2=6%,围绕拟合直线的变异较围绕均值变异少6%,表示由小鼠做某件事时间和体重关系解释的变异占体重总体变异的6%,说明小鼠体重的绝大部分变异几乎不能由小鼠做某件事时间和体重关系所解释,相反可能存在其他解释的因素。

总结:需要注意的是,相关系数correlation仅仅只说明x-y的变化趋势正向或反向,不能说明因果关系(即x的变化导致y的变化,也可能是y导致x,也可能是由于第三者z导致x及y的变化等…)

参考链接:
协方差(covariance)与相关系数(1)
协方差(covariance)与相关系数(2)

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值