数据探索
计算相关系数
为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系统来进行相关分析。
在二元变量的相关分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系数。
皮尔逊相关系数(Pearson Correlation Coefficient)
一般用于分析两个连续性变量之间的关系,其计算公式如下。
r
=
∑
i
=
1
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
∑
i
=
1
n
(
x
i
−
x
‾
)
2
∑
i
=
1
n
(
y
i
−
y
‾
)
2
r = { \sum_{i=1}^{n}(xi-\overline{x})(yi-\overline{y})\over\sqrt{\sum_{i=1}^{n}(xi-\overline{x})^2\sum_{i=1}^{n}(yi-\overline{y})^2}}
r=∑i=1n(xi−x)2∑i=1n(yi−y)2∑i=1n(xi−x)(yi−y)
相关系数r的取值范围:-1 <= r <= 1
{
r
>
0
为
正
相
关
,
r
<
0
为
负
相
关
∣
r
∣
=
0
表
示
不
存
在
线
性
关
系
∣
r
∣
=
1
表
示
完
全
线
性
相
关
\begin{cases} r > 0 为正相关,r<0为负相关\\ |r| = 0 表示不存在线性关系\\ |r| = 1 表示完全线性相关 \end{cases}
⎩⎪⎨⎪⎧r>0为正相关,r<0为负相关∣r∣=0表示不存在线性关系∣r∣=1表示完全线性相关
0<|r|<1表示存在不同程度线性相关
{
∣
r
∣
<
=
0.3
为
不
存
在
线
性
相
关
0.3
<
∣
r
∣
<
=
0.5
为
低
度
线
性
相
关
0.5
<
∣
r
∣
<
=
0.8
为
显
著
线
性
相
关
∣
r
∣
>
0.8
为
高
度
线
性
相
关
\begin{cases} |r|<=0.3为不存在线性相关\\ 0.3<|r|<=0.5为低度线性相关\\ 0.5<|r|<=0.8为显著线性相关\\ |r|>0.8为高度线性相关 \end{cases}
⎩⎪⎪⎪⎨⎪⎪⎪⎧∣r∣<=0.3为不存在线性相关0.3<∣r∣<=0.5为低度线性相关0.5<∣r∣<=0.8为显著线性相关∣r∣>0.8为高度线性相关
Spearman秩相关系数
Pearson线性相关系数要求连续变量的取值服从正太分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。
其计算公式如下:
r
=
1
−
6
∑
i
=
1
n
(
R
i
−
Q
i
)
2
n
(
n
2
−
1
)
r={1-{{6\sum_{i=1}^{n}(Ri-Qi)^2}\over{n(n^2-1)}}}
r=1−n(n2−1)6∑i=1n(Ri−Qi)2
研究表明,在正态分布假设下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析。
判定系数
判定系数是相关系数的平方,用 r 2 r^2 r2表示;用来衡量回归方程对y的解释程度。
判定系数取值范围:0<= r 2 r^2 r2<=1, r 2 r^2 r2越接近于1,表示x与y之间的相关性越强;
r 2 r^2 r2越接近于0,表明两个变量之间几乎没有直线相关关系。