皮尔逊相关系数_关于皮尔逊相关系数,你们的理解都错了

前段时间工作需要,用到相关系数这一概念,但是深究的时候,关于相关系数的理解,居然一个准确的回答都没有搜到,因此我觉得有必要写一篇文章,指出大家理解的错误之处,让后面学习的人少走弯路。

相关系数有很多种,这里及下文仅指皮尔斯相关系数,先看公式:

95725da75acf5990e6a11a2c385891f9.png

其中cov(X,Y)表示协方差 ,定义式是后面表达式的分子,σX表示X的标准差。

首先,百度百科的解释。“相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。”并没有错误,但并不不利于我们的直观理解,”研究线性相关程度的量“,话没有错,但是我看到这个解释之后依然不知道它是什么,怎么用。

后来,对相关系数,有了这样的描述:表征两个数列的变化关系(同向或反向的程度),即同时变大则相关系数为正,同时变小则为负。

在这样的解释中,以@GRAYLAMB的这篇解释最细致。(https://www.zhihu.com/question/20852004)

因为他不仅解释了同向或反向的程度,还提出了并解释了个别点高于或低于均值的情况不同的特例以及一个数列增加但都小于均值,一个数列减小但都大于均值的特例。(第一种会被总体情况平均掉,而第二种不可能存在。)详情可以参考上面的文章。

但是!!!这样的表述是错误的!!!

先说正确表述:皮尔逊相关系数反应的是两组数列同时高于均值或低于均值的情况。而不是同时变大变小的情况,不是同向或反向的程度!!

证明一个观点可能需要无数个正面的例子,而证伪一个观点只需要一个反例,下面举三个反例。

例一: a 一直变大,b前四位和后四位分别都在变小。变大变小规律不同,但相关系数大于0.8,强相关,因此同时变大或同时减小无关相关系数。同时两组数都是前4位是小于均值,后4位大于均值,高于或低于均值的情况相同,所以强相关。

4d803c6a25451c227c086d2775ad8855.png

例二:两组数列都在变大,相关系数小于0.2, 极弱相关。因此同时变大或同时减小关系无关相关系数。但是两组数列高于均值或低于均值的情况完全不同。

7973d75d72983cd0825e6fa21c0d4d8c.png

例三:两组数列都是先增加后减小,但是相关系数负的强相关。

4f998e73d5621cd3aeb18879b5bf7a83.png

至此,应该没人认为同时变大变小情况决定相关系数了吧。其实回过头来看公式,分母一定是正数,分子反应的不就是同时高于均值或低于均值的情况吗?

7bcfa91c132b51f998357b057d1b1aa8.png

其实这个问题并不难,只是查了全网都没有正确的解释,错误的解释人云亦云,往往搞的初学者云里雾里,希望大家看完本文后,能正确认识皮尔逊相关系数。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值