相关系数(Correlation coefficient)
皮尔逊相关系数 也称为简单相关系数,用于研究变量之间 线性相关的程度。相关系数可以用简写 c c cc cc 表示,不过通常还是会用 r r r 来表示。
NOTE:皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数。
定义:
ρ
x
y
=
r
(
X
,
Y
)
=
C
o
v
(
X
,
Y
)
V
a
r
[
X
]
V
a
r
[
Y
]
\rho_{xy} = r(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}
ρxy=r(X,Y)=Var[X]Var[Y]Cov(X,Y)
其中,
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y) 是
X
X
X 和
Y
Y
Y 的协方差,
V
a
r
[
X
]
Var[X]
Var[X] 和
V
a
r
[
Y
]
Var[Y]
Var[Y] 分别为
X
X
X,
Y
Y
Y 的方差。
值域:[-1,1]
意义:定量刻画了 X X X 和 Y Y Y 的相关程度, ∣ ρ x y ∣ |\rho_{xy}| ∣ρxy∣ 越大则相关程度越大; ∣ ρ x y ∣ = 0 |\rho_{xy}| = 0 ∣ρxy∣=0 对应相关程度最低。
ρ x y \rho_{xy} ρxy 为 正数 时表示两个变量呈 正相关,即一个变量增大时另一个变量也增大(比如气温越高,冰淇淋的销量就越多); ρ x y \rho_{xy} ρxy 结果为 负数 时两个变量呈 负相关,即一个变量增大时另一个变量减小(比如海拔越高时,空气中的氧气含量就越少); ρ x y \rho_{xy} ρxy 为 0,则表示两个变量不为线性关系,有可能两者不相关,但也有可能两者有更加复杂的关系。
相关性的强弱大致可以按照如下分布来进行判定:
-
∣
ρ
x
y
∣
|\rho_{xy}|
∣ρxy∣
0.8 ~ 1.0
,极强相关 -
∣
ρ
x
y
∣
|\rho_{xy}|
∣ρxy∣
0.6 ~ 0.8
,强相关 -
∣
ρ
x
y
∣
|\rho_{xy}|
∣ρxy∣
0.4 ~ 0.6
,中等程度相关 -
∣
ρ
x
y
∣
|\rho_{xy}|
∣ρxy∣
0.2 ~ 0.4
,弱相关 -
∣
ρ
x
y
∣
|\rho_{xy}|
∣ρxy∣
0.0 ~ 0.2
,极弱相关或无相关
计算方法:
方法一:Excel 自带公式
公式 -> 插入函数 -> 统计 -> CORREL
或者直接在 Excel 表格任意空白位置输入:=CORREL()
方法二:专业数据分析工具 SPSS
参考文章:
皮尔逊积矩相关系数
【从零开始的AI学习】如何判断两个数据之间的相关性?
决定系数(coefficient of determination)
决定系数也称为拟合优度,是 相关系数的平方。用于 评价拟合的好坏,这里的拟合可以是线性或非线性的。通常记作 r 2 r^2 r2。
意义:决定系数 r 2 r^2 r2 约接近于 1,则拟合回归的效果越好。
表示可根据自变量的变异来解释因变量的变异部分。如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R^2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定。