数学建模竞赛知识点汇总(四)——相关性检验
文章目录
简介
相关性分析是研究两个或两个以上的随机变量间的相关关系的统计分析方法,例如降水与地形、降水与温度等的相关关系。相关分析前,首先通过散点图了解变量间大致的关系情况。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
皮尔逊相关系数
总体person相关系数
ρ
X
Y
=
Cov
(
X
,
Y
)
σ
x
σ
y
\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sigma_{x} \sigma_{y}}
ρXY=σxσyCov(X,Y)
σ
x
=
∑
i
=
1
n
(
X
i
−
E
(
X
)
)
2
n
与
σ
y
=
∑
i
=
1
n
(
Y
i
−
E
(
Y
)
)
2
n
分
别
是
X
总
体
与
Y
总
体
的
方
差
。
\sigma_{x}=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)^{2}}{n}} 与 \sigma_{y}=\sqrt{\frac{\sum_{i=1}^{n}\left(Y_{i}-E(Y)\right)^{2}}{n}}分别是X 总体与 Y 总体的方差。
σx=n∑i=1n(Xi−E(X))2与σy=n∑i=1n(Yi−E(Y))2分别是X总体与Y总体的方差。
Cov ( X , Y ) = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n 为 总 体 的 协 方 差 。 \operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)\left(Y_{i}-E(Y)\right)}{n} 为总体的协方差。 Cov(X,Y)=n∑i=1n(Xi−E(X))(Yi−E(Y))为总体的协方差。
样本person相关系数
r
X
Y
=
Cov
(
X
,
Y
)
S
x
S
y
r_{X Y}=\frac{\operatorname{Cov}(X, Y)}{S_{x} S_{y}}
rXY=SxSyCov(X,Y)
S
x
=
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
n
−
1
与
S
y
=
∑
i
=
1
n
(
Y
i
−
Y
ˉ
)
2
n
−
1
分
别
是
X
样
本
与
Y
样
本
的
方
差
。
S_{x}=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}}与S_{y}=\sqrt{\frac{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}{n-1}} 分别是 X样本与Y样本的方差。
Sx=n−1∑i=1n(Xi−Xˉ)2与Sy=n−1∑i=1n(Yi−Yˉ)2分别是X样本与Y样本的方差。
Cov ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 为 样 本 的 协 方 差 。 \operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1} 为样本的协方差。 Cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)为样本的协方差。
Tips:皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标,所以必须确定这两个变量是线性相关的,才能够表示线性相关程度。相关系数的结果为0,只能说明他们是非线性相关的,但不能表明其没有相关关系。
皮尔逊相关系数假设检验
前提步骤
- 前提条件
- 实验数据通常假设是成对的来自于正态分布的总体。
- 实验数据之间的差距不能太大。
- 每组样本之间是独立抽样的。
- 对数据进行正态分布检验
-
雅克-贝拉检验(适用于较大样本数)
-
夏皮诺-威尔克检验(Shapiro‐wilk检验)
夏皮诺-威尔克检验适用于小样本。
-
Q-Q图
在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概 率分布的分位数对这两个概率分布进行比较的概率图方法。
流程
- 提出原假设与备择假设, H 0 : r = 0 , H 1 : r ≠ 0 H_{0}: r=0, H_{1}: r \neq 0 H0:r=0,H1:r=0 。
- 构造检验统计量
r
n
−
2
1
−
r
2
∼
t
(
n
−
2
)
r \sqrt{\frac{n-2}{1-r^{2}}} \sim t(n-2)
r1−r2n−2∼t(n−2)
服从自由度为 2 的
t
t
t 分布
-
计算出检验值(代入数据)得到 t ∗ t^{*} t∗ 。
-
使用 p p p 检验
计算 p p p 值
p
=
2
×
(
1
−
∫
−
∞
t
∗
t
(
x
)
d
x
)
p=2 \times\left(1-\int_{-\infty}^{t^{*}} t(x) d x\right)
p=2×(1−∫−∞t∗t(x)dx)
5. 结果说明
- p < 0.01 : p<0.01: p<0.01: 在 99 % 99 \% 99% 的置信水平上拒绝原假设。
- 0.01 < p < 0.05 0.01<p<0.05 0.01<p<0.05 : 在 99 % 99 \% 99% 的置信水平上无法㫜色原假设,但在 95 % 95 \% 95% 的水平上可以拒绝原假设。
- 0.05 < p < 0.1 : 0.05<p<0.1: 0.05<p<0.1: 在 95 % 95 \% 95% 的置信水平上无法拒绝原假设,但在 90 % 90 \% 90% 的水平上可以拒绝原殿设。
斯皮尔曼相关系数
X
,
Y
X, Y
X,Y 为两组数据,其斯皮尔晶(等级)相关系数:
r
s
=
1
−
6
∑
i
=
1
n
d
i
2
n
(
n
2
−
1
)
r_{s}=1-\frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n\left(n^{2}-1\right)}
rs=1−n(n2−1)6∑i=1ndi2
d
i
d_{i}
di 为
X
i
X_{i}
Xi 与
Y
i
Y_{i}
Yi 之间的等级差。
(
−
1
≤
r
s
≤
1
)
\left(-1 \leq r_{s} \leq 1\right)
(−1≤rs≤1) 。
皮尔逊相关系数与斯皮尔曼相关系数对比
- 连续数据,正态分布,线性关系,最好使用 person。
- 除此之外都使用 spearman。
- 两个定序数据之间也只能用spearman。
定序数据:仅仅反映观测对象的等级顺序关系的数据。(例如:优,良,差等)。
后续
喜欢的话可以关注一下我的公众号技术开发小圈,尤其是对深度学习以及计算机视觉有兴趣的朋友,我会把相关的源码以及更多资料发在上面,希望可以帮助到新入门的大家!