皮尔逊相关系数丨Pearson’s correlation coefficient

皮尔逊相关系数丨Pearson’s correlation coefficient

前言:计算EEG信号相关系数,由于一些论文公式看不懂,总结下相关知识!


什么是相关系数

相关系数( Correlation coefficient ) : 考察两个事物(在数据里我们称之为变量)之间的相关程度。
这里写图片描述

如果有两个变量: x,y x , y ,最终计算出的相关系数的含义可以有如下理解:

左图(1):当 x x 的值增大(减小),y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

中图(2):当相关系数为0时, x x y两变量无关系

右图(3):当 x x 的值增大(减小),y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。


相关系数与相关距离定义

相关系数数学公式:

ρxy=Cov(X,Y)D(X)D(Y)=E((XEX)(YEY))D(X)D(Y)(1) (1) ρ x y = C o v ( X , Y ) D ( X ) D ( Y ) = E ( ( X − E X ) ( Y − E Y ) ) D ( X ) D ( Y )

其中, E E 为数学期望或均值,D为方差, D D 为标准差, Cov(X,Y) C o v ( X , Y ) 为协方差,而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数 ρxy ρ x y

相关距离数学公式:

Dxy=1ρxy D x y = 1 − ρ x y


相关系数含义

相关系数的取值范围 [1,1] [ − 1 , 1 ] ,相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:

相关系数绝对值相关强度
0.8~1.0极强相关
0.6~0.8强相关
0.4~0.6中等程度相关
0.2~0.4弱相关
0.0~0.2极弱相关或无相关


什么是皮尔逊相关

皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用 r r 表示,其中n样本量,分别为两个变量的观测值均值 r r 描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。


皮尔逊公式推导

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商。

(1)式可以写为:

ρxy=Cov(X,Y)σXσY=E((XμX)(YμY))σXσY(2) (2) ρ x y = C o v ( X , Y ) σ X σ Y = E ( ( X − μ X ) ( Y − μ Y ) ) σ X σ Y

​ 又因: E(x)=ni=1xiP(xi) E ( x ) = ∑ i = 1 n x i P ( x i ) σX=D(x)=E((xE(x))2)=E(X2)E2(X) σ X = D ( x ) = E ( ( x − E ( x ) ) 2 ) = E ( X 2 ) − E 2 ( X ) μX=EX μ X = E X

推导1:定义了总体相关系数,常用希腊小写字母 ρ ρ 作为符号代表。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 r r 代表:

(3)r=i=1n(XiX¯)(YiY¯)i=1n(XiX¯)2i=1n(YiY¯)2

推导2: r r 亦可由(Xi,Yi)样本点的标准分数均值估计,样本方差 S2=1n1ni=1(XiX¯)2 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ¯ ) 2 ,令样本标准差和总体标准差相同 S=σ S = σ 得到与上式等价的表达式:

r=1n1i=1n(XiX¯σX)(YiY¯σY)(4) (4) r = 1 n − 1 ∑ i = 1 n ( X i − X ¯ σ X ) ( Y i − Y ¯ σ Y )

​ 其中 XiX¯σX X i − X ¯ σ X X¯ X ¯ σX σ X 分别是对 Xi X i 样本的标准分数、样本平均值和样本标准差。

推导3::由 E((XEX)(YEY))=E(XY)E(X)E(Y) E ( ( X − E X ) ( Y − E Y ) ) = E ( X Y ) − E ( X ) E ( Y ) ,故相关系数也可以表示成:

ρxy=E(XY)E(X)E(Y)E(X2)(E(X))2E(Y2)(E(Y))2(5) (5) ρ x y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − ( E ( X ) ) 2 E ( Y 2 ) − ( E ( Y ) ) 2

​ 对于样本皮尔逊相关系数:
rxy=xiyinx¯y¯(n1)SxSy=n(xiyi)(xi)(yi)[nx2i(xi)2][ny2i(yi)2](6) (6) r x y = ∑ x i y i − n x ¯ y ¯ ( n − 1 ) S x S y = n ( ∑ x i y i ) − ( ∑ x i ) ( ∑ y i ) [ n ∑ x i 2 − ( ∑ x i ) 2 ] [ n ∑ y i 2 − ( ∑ y i ) 2 ]

​ 此公式也是统计学常用计算相关性公式之一。

推导4:有关信号处理的皮尔逊相关性会出现这样一个式子,Pearson的相关系数测量了时域的线性相关。在两个信号之间 x(t) x ( t ) y(t) y ( t ) 在零延迟。对于零均值,单位方差信号定义为::

rxy=1ni=1nx(i)y(i)(7) (7) r x y = 1 n ∑ i = 1 n x ( i ) y ( i )

​ 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数,Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理) ;

​ 其中总体Z分数: Z=Xμσ Z = X − μ σ ,样本Z分数: Z=XX¯S Z = X − X ¯ S

此处摘自:皮尔逊相关系数

​ 我没太搞懂这一块,大家有没有什么高见?


rxy=1nZxZy=1n(XX¯Sx)(YY¯Sy)=1n(XX¯)(YY¯)SxSy=(XX¯)(YY¯)n(1nni=1(XiX¯)2)(1nni=1(YiY¯)2)=(XX¯)(YY¯)(ni=1(XiX¯)2)(ni=1(YiY¯)2)(10)(11)(12)(13)(14) (10) r x y = 1 n ∑ Z x Z y (11) = 1 n ∑ ( X − X ¯ S x ) ( Y − Y ¯ S y ) (12) = 1 n ∑ ( X − X ¯ ) ( Y − Y ¯ ) S x S y (13) = ∑ ( X − X ¯ ) ( Y − Y ¯ ) n ( 1 n ∑ i = 1 n ( X i − X ¯ ) 2 ) ( 1 n ∑ i = 1 n ( Y i − Y ¯ ) 2 ) (14) = ∑ ( X − X ¯ ) ( Y − Y ¯ ) ( ∑ i = 1 n ( X i − X ¯ ) 2 ) ( ∑ i = 1 n ( Y i − Y ¯ ) 2 )

总结:上述推导的四个皮尔逊公式是等价的,读者可自行选择使用!


皮尔逊相关系数的适用范围

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

  1. 两个变量之间是线性关系,都是连续数据。
  2. 两个变量的总体是正态分布,或接近正态的单峰分布。
  3. 两个变量的观测值是成对的,每对观测值之间相互独立。


皮尔逊使用例子

如何找到皮尔逊相关系数,样本如下:

数量年龄(x)葡萄糖含量(y)
14399
22165
32579
44275
55787
65981

步骤1:使一个图表。使用给定的数据,并添加三个多列: xy x y x2 x 2 y2 y 2 并求出。

数量年龄(x)葡萄糖含量(y) xy x y x2 x 2 y2 y 2
14399425718499801
2216513654414225
3257919756256241
44275315017645625
55787495932497569
65981477934816561

步骤2:计算出 总和。

数量年龄(x)葡萄糖含量(y) xy x y x2 x 2 y2 y 2
14399425718499801
2216513654414225
3257919756256241
44275315017645625
55787495932497569
65981477934816561
247486204851140940022

步骤3:使用下面公式计算结果:

rxy=n(xiyi)(xi)(yi)[nx2i(xi)2][ny2i(yi)2]=6(20485)(247486)[6(11429)(247)2][6(40022)(486)2]=28685413.27=0.529809(39)(40)(41)(42) (39) r x y = n ( ∑ x i y i ) − ( ∑ x i ) ( ∑ y i ) [ n ∑ x i 2 − ( ∑ x i ) 2 ] [ n ∑ y i 2 − ( ∑ y i ) 2 ] (40) = 6 ( 20485 ) − ( 247 ∗ 486 ) [ 6 ( 11429 ) − ( 247 ) 2 ] [ 6 ( 40022 ) − ( 486 ) 2 ] (41) = 2868 5413.27 (42) = 0.529809

结果:相关系数的范围是从-1到1。我们的结果是0.5298或52.98%,这意味着变量具有适度的正相关性。


Matlab 代码

使用上述数据进行测试,代码如下:

x=[43,21,25,42,57,59];
y=[99,65,79,75,87,81];
c=corr(x',y','type','pearson');

运行结果: c c <script type="math/tex" id="MathJax-Element-185">c</script>=0.529808901890174
与上述结果相同!


致谢链接

维基百科
统计学
百度百科
皮尔逊相关系数
Z分数

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值