Pearson相关系数

定义


统计上,经常用Pearson矩相关系数来衡量两个变量 X Y的线性相关性,皮尔逊相关系数介于-1和1之间,1代表完全正相关,0代表不相关,-1代表完全负相关。两个变量的皮尔逊相关系数定义为这两个变量的协方差除以它们的标准差乘积。

对于总体,我们记皮尔逊相关系数为 ρ ,计算公式为

ρX,Y=cov(X,Y)σXσY

这里, (cov) 代表协方差, σX 代表 X 的标准误。因为X,Y的协方差计算公式为
cov(X,Y)=E[(Xμx)(YμY)]

所以上面的相关系数计算公式还可以写为
ρX,Y=E[(XμX)(YμY)]σXσYσXσY

这里, μX 代表 X 的均值,E代表期望。 ρ 还可以写成非中心矩的形式。因为
μX=E(X)μY=E(Y)σ2X=E[(XE(X))2]=E(X2)E(X)2σ2Y=E[(XE(Y))2]=E(Y2)E(Y)2E[(XμX)(YμY)]=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y)

所以上面的公式还可以写为
ρX,Y=E(XY)E(X)E(Y)E(X2)E(X)2E(Y2)E(Y)2

对于样本,我们用 r 代表样本皮尔逊相关系数。我们可以用样本协方差和标准差代替总体方差和标准差来计算样本相关系数。比如(x1,x2,...,xn)为一组观测样本, (y1,y2,...,yn) 为另外一组观测样本,那么 r 的计算公式就可以写为:
r=rxy=ni=1(xix¯)(yiy¯)ni=1(xix¯)2ni=1(yiy¯)2

这里 n 代表样本个数,x¯代表样本均值, y¯ 类似。简单的推导可以得出这个公式的三个等价形式:
r=rx,y=xiyinx¯y¯(x2inx¯2)(y2iny¯2)

r=rx,y=1n1i=1n(xix¯sx)(yiy¯sy)

以及
r=rx,y=xiyinx¯y¯(n1)sxsy

这里 sx=1n1ni=1(xix¯)2 代表样本标准误差,而 (xix¯sx) 就是样本的标准分数或者z-分数。

皮尔逊相关系数的数学性质及几何意义


不论是样本还是总体,皮尔逊相关系数绝对值总是小于等于1的。如果相关系数等于 1 或者1,对于样本来说代表样本点完全在同一条直线上,对于总体来说两个变量的分布由一条直线支撑。同时皮尔逊相关系数具有对称性,即 corr(X,Y)=corr(Y,X) .。
皮尔逊相关系数一个非常重要的性质就是不随着两个变量的位置改变、大小缩放而改变。比如,把 X 变为a+bX,把 Y 变为c+dY不改变它们之间的相关系数,这里 a,b,c,d 为定值且 b d大于0。也就是说,一般的线性变换不改变它们的相关系数。
下面是几个皮尔逊相关系数的例子。

这里写图片描述

相关系数介于0和1之间。相关系数为1就意味着 X Y落在同一条直线上,呈正相关, Y 随着X的增大而增大,随着 X 的减小而减小。相关系数为1说明 X,Y 负相关,相关系数为0就意味着 X Y没有线性相关关系。

更一般的,当且仅当 Xi Yi 落在各自均值的同一侧时, (XiX¯¯¯)(YiY¯¯¯) 为正。因此当 Xi Yi 相对于均值倾向于同时增加或者同时减小时相关系数为正。反之,相关系数为负。而且这种趋势越强就说明相关系数的绝对值越大。

如果数据经过了标准化处理,那么皮尔逊相关系数表示的就是这两个 n 维向量夹角的余弦值。也就是说如果有x¯=0 y¯=0 ,则相关系数就可以变为

rx,y=xiyix2iy2i=xy||x||||y||=cos(x,y)

注意事项


皮尔逊相关系数非常有用,但也不能滥用,我们来看一些需要注意的地方。

  1. 皮尔逊相关系数是一个线性关系测度,但 r <script type="math/tex" id="MathJax-Element-58">r</script>比较小不能代表变量间没有关系,只能说明变量间没有线性关系或者线性关系比较弱。实际上变量间可能存在非线性关系(下图有几个非线性关系例子),对数据进行一些合适的变换可以增大它们之间的线性关系。
  2. 解释相关系数时要考虑实际情况。比如你可能计算出一些人鞋子大小和智商高低相关系数非常大,但这很显然是不合理的,这时相关系数比较大可能仅仅是巧合。
  3. 相关不代表因果,不能把相关系数和因果关系混在一起。比如夏天冰激凌销量大,冷饮销量也比较大,它们之间存在相关关系,但我们不能说是冰激凌销量大导致冷饮销量也大,这完全是两码事,实际上温度才是导致它们销量上升的原因。
  4. 相关系数和回归系数也要区分开,相关系数不代表直线斜率。

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值