相关系数
下面我们会讲解两种最为常用的相关系数:皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。它们可以用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。
总体皮尔逊相关系数
回顾《概率论与数理统计》中的相关系数就是皮尔逊相关系数。
如果两组数据
X
:
(
X
1
,
X
2
,
X
3
.
.
.
X
n
)
X: (X_1,X_2,X_3...X_n)
X:(X1,X2,X3...Xn)和
Y
:
(
Y
1
,
Y
2
,
Y
3
.
.
.
Y
n
)
Y:(Y_1,Y_2,Y_3...Y_n)
Y:(Y1,Y2,Y3...Yn)是总体数据,那么:
总
体
均
值
:
E
(
X
)
=
∑
i
=
1
n
X
i
n
,
E
(
Y
)
=
∑
i
=
1
n
Y
i
n
总体均值:E(X)=\frac{\sum\limits_{i=1}^nX_i}{n},E(Y)=\frac{\sum\limits_{i=1}^nY_i}{n}
总体均值:E(X)=ni=1∑nXi,E(Y)=ni=1∑nYi
总
体
协
方
差
:
C
o
v
(
X
,
Y
)
=
∑
i
=
1
n
(
X
i
−
E
(
X
)
)
(
Y
i
−
E
(
Y
)
)
n
总体协方差:Cov(X,Y)=\frac{\sum\limits_{i=1}^n(X_i-E(X))(Y_i-E(Y))}{n}
总体协方差:Cov(X,Y)=ni=1∑n(Xi−E(X))(Yi−E(Y))
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y变化方向一直保持相同,则协方差方向为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间互无规律 ,即分子中的项有正有负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
总
体
p
e
r
s
o
n
相
关
系
数
:
ρ
X
Y
=
C
o
v
(
X
,
Y
)
σ
X
σ
Y
=
∑
i
=
1
n
(
X
i
−
E
(
X
)
)
σ
X
(
Y
i
−
E
(
Y
)
)
σ
Y
n
总体person相关系数:\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}=\frac{\sum\limits_{i=1}^n\frac{(X_i-E(X))}{\sigma_X}\frac{(Y_i-E(Y))}{\sigma_Y}}{n}
总体person相关系数:ρXY=σXσYCov(X,Y)=ni=1∑nσX(Xi−E(X))σY(Yi−E(Y))
σ
X
,
σ
Y
是
X
和
Y
的
标
准
差
,
σ
X
=
∑
i
=
1
n
(
X
i
−
E
(
X
)
)
2
n
,
σ
Y
同
理
\sigma_X,\sigma_Y是X和Y的标准差,\sigma_X=\sqrt{\frac{\sum\limits_{i=1}^n(X_i-E(X))^2}{n}},\sigma_Y 同理
σX,σY是X和Y的标准差,σX=ni=1∑n(Xi−E(X))2,σY同理
皮尔逊相关系数可以看成是剔除了两个变量量纲的影响,即将X和Y标准化后的协方差。
可以证明得到:
∣
ρ
X
Y
∣
≤
1
,
且
当
Y
=
a
X
+
b
时
,
ρ
X
Y
=
{
1
a
>
0
−
1
a
<
0
|\rho_{XY}| \leq1,且当Y=aX+b时,\rho_{XY}=\begin{cases} 1 & a>0 \\ -1 & a<0 \end{cases}
∣ρXY∣≤1,且当Y=aX+b时,ρXY={1−1a>0a<0
样本皮尔逊相关系数
如果两组数据
X
:
(
X
1
,
X
2
,
X
3
.
.
.
X
n
)
X: (X_1,X_2,X_3...X_n)
X:(X1,X2,X3...Xn)和
Y
:
(
Y
1
,
Y
2
,
Y
3
.
.
.
Y
n
)
Y:(Y_1,Y_2,Y_3...Y_n)
Y:(Y1,Y2,Y3...Yn)是样本数据(一般调查得到的数据均为样本数据),那么:
样
本
均
值
:
X
‾
=
∑
i
=
1
n
X
i
n
,
Y
‾
=
∑
i
=
1
n
Y
i
n
样本均值: \overline X=\frac{\sum\limits_{i=1}^nX_i}{n},\overline Y=\frac{\sum\limits_{i=1}^nY_i}{n}
样本均值:X=ni=1∑nXi,Y=ni=1∑nYi
样
本
协
方
差
:
C
o
v
(
X
,
Y
)
=
∑
i
=
1
n
(
X
i
−
X
‾
)
(
Y
i
−
Y
‾
)
n
样本协方差:Cov(X,Y)=\frac{\sum\limits_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{n}
样本协方差:Cov(X,Y)=ni=1∑n(Xi−X)(Yi−Y)
样
本
p
e
r
s
o
n
相
关
系
数
:
r
X
Y
=
C
o
v
(
X
,
Y
)
S
X
S
Y
样本person相关系数:r_{XY}=\frac{Cov(X,Y)}{S_XS_Y}
样本person相关系数:rXY=SXSYCov(X,Y)
其
中
,
S
X
是
X
的
样
本
标
准
差
,
S
X
=
∑
i
=
1
n
(
X
i
−
X
‾
)
2
n
−
1
,
S
Y
同
理
。
其中,S_X是X的样本标准差,S_X=\sqrt{\frac{\sum\limits_{i=1}^n(X_i-\overline X)^2}{n-1}},S_Y同理。
其中,SX是X的样本标准差,SX=n−1i=1∑n(Xi−X)2,SY同理。
下面这张图是相关性的值不同时,散点呈现的图像。
关于皮尔逊相关系数的理解误区
这里的相关系数只是用来衡量两个变量线性相关程度的指标,也就是说,必须先确定这两个变量是线性相关的,然后这个相关系数才能反应这两个变量的相关程度如何。
所以我们得到相关系数的误区:
① 非线性相关也会导致线性相关系数很大
② 离群点对相关系数的影响很大
③ 如果两个变量的相关系数很大也不能说明两者相关,可能是收到了异常值的影响
④ 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
针对这些情况,我们做两点总结:
① 如果两个变量本身就是线性关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。
② 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说它们相关,我们一定要先画出散点图进行判断
相关系数大小的解释
相关性 | 负 | 正 |
---|---|---|
无相关性 | -0.09~0.0 | 0.0~0.09 |
弱相关性 | -0.3~-0.1 | 0.1~0.3 |
中相关性 | -0.5~-0.3 | 0.3~0.5 |
强相关性 | -1.0~0.5 | 0.5~1.0 |
上表所定的标准从某种意义上来讲是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。事实上,比起相关系数的大小,我们往往更关注的是显著性(假设检验)。
计算相关系数
首先使用matlab或者spss来画出散点图,判断是否有线性关系。然后使用matlab中计算相关系数自带的函数来计算相关系数,函数如下:
R = corrcoef(Test) % correlation coefficient