数学建模竞赛知识点汇总(四)——相关性检验

本文详细介绍了数学建模中相关性检验的重要概念,包括皮尔逊相关系数和斯皮尔曼相关系数的计算及假设检验流程。皮尔逊系数用于衡量线性相关程度,适合正态分布的连续数据;而斯皮尔曼系数适用于非正态分布或等级数据。文章还提到了相关性检验的前提条件和Q-Q图等检验方法。
摘要由CSDN通过智能技术生成

数学建模竞赛知识点汇总(四)——相关性检验

简介

​ 相关性分析是研究两个或两个以上的随机变量间的相关关系的统计分析方法,例如降水与地形、降水与温度等的相关关系。相关分析前,首先通过散点图了解变量间大致的关系情况。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
在这里插入图片描述

皮尔逊相关系数

总体person相关系数

ρ X Y = Cov ⁡ ( X , Y ) σ x σ y \rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sigma_{x} \sigma_{y}} ρXY=σxσyCov(X,Y)
σ x = ∑ i = 1 n ( X i − E ( X ) ) 2 n 与 σ y = ∑ i = 1 n ( Y i − E ( Y ) ) 2 n 分 别 是 X 总 体 与 Y 总 体 的 方 差 。 \sigma_{x}=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)^{2}}{n}} 与 \sigma_{y}=\sqrt{\frac{\sum_{i=1}^{n}\left(Y_{i}-E(Y)\right)^{2}}{n}}分别是X 总体与 Y 总体的方差。 σx=ni=1n(XiE(X))2 σy=ni=1n(YiE(Y))2 XY

Cov ⁡ ( X , Y ) = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n ​ 为 总 体 的 协 方 差 。 \operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-E(X)\right)\left(Y_{i}-E(Y)\right)}{n}​ 为总体的协方差。 Cov(X,Y)=ni=1n(XiE(X))(YiE(Y))

样本person相关系数

r X Y = Cov ⁡ ( X , Y ) S x S y r_{X Y}=\frac{\operatorname{Cov}(X, Y)}{S_{x} S_{y}} rXY=SxSyCov(X,Y)
S x = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 与 S y = ∑ i = 1 n ( Y i − Y ˉ ) 2 n − 1 分 别 是 X 样 本 与 Y 样 本 的 方 差 。 S_{x}=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}}与S_{y}=\sqrt{\frac{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}{n-1}} 分别是 X样本与Y样本的方差。 Sx=n1i=1n(XiXˉ)2 Sy=n1i=1n(YiYˉ)2 XY

Cov ⁡ ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 为 样 本 的 协 方 差 。 \operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1} 为样本的协方差。 Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)

Tips:皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标,所以必须确定这两个变量是线性相关的,才能够表示线性相关程度。相关系数的结果为0,只能说明他们是非线性相关的,但不能表明其没有相关关系。

皮尔逊相关系数假设检验

前提步骤
  1. 前提条件
  • 实验数据通常假设是成对的来自于正态分布的总体。
  • 实验数据之间的差距不能太大。
  • 每组样本之间是独立抽样的。
  1. 对数据进行正态分布检验
  • 雅克-贝拉检验(适用于较大样本数)
    在这里插入图片描述
    在这里插入图片描述

  • 夏皮诺-威尔克检验(Shapiro‐wilk检验)

    夏皮诺-威尔克检验适用于小样本。

  • Q-Q图

    在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概 率分布的分位数对这两个概率分布进行比较的概率图方法。

流程
  1. 提出原假设与备择假设, H 0 : r = 0 , H 1 : r ≠ 0 H_{0}: r=0, H_{1}: r \neq 0 H0:r=0,H1:r=0
  2. 构造检验统计量

r n − 2 1 − r 2 ∼ t ( n − 2 ) r \sqrt{\frac{n-2}{1-r^{2}}} \sim t(n-2) r1r2n2 t(n2)
​ 服从自由度为 2 的 t t t 分布

  1. 计算出检验值(代入数据)得到 t ∗ t^{*} t

  2. 使用 p p p 检验

    计算 p p p

p = 2 × ( 1 − ∫ − ∞ t ∗ t ( x ) d x ) p=2 \times\left(1-\int_{-\infty}^{t^{*}} t(x) d x\right) p=2×(1tt(x)dx)
5. 结果说明

  • p < 0.01 : p<0.01: p<0.01: 99 % 99 \% 99% 的置信水平上拒绝原假设。
  • 0.01 < p < 0.05 0.01<p<0.05 0.01<p<0.05 : 在 99 % 99 \% 99% 的置信水平上无法㫜色原假设,但在 95 % 95 \% 95% 的水平上可以拒绝原假设。
  • 0.05 < p < 0.1 : 0.05<p<0.1: 0.05<p<0.1:​ 在 95 % 95 \% 95%​ 的置信水平上无法拒绝原假设,但在 90 % 90 \% 90%​ 的水平上可以拒绝原殿设。

斯皮尔曼相关系数

X , Y X, Y X,Y 为两组数据,其斯皮尔晶(等级)相关系数:
r s = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) r_{s}=1-\frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n\left(n^{2}-1\right)} rs=1n(n21)6i=1ndi2
d i d_{i} di X i X_{i} Xi Y i Y_{i} Yi 之间的等级差。 ( − 1 ≤ r s ≤ 1 ) \left(-1 \leq r_{s} \leq 1\right) (1rs1)

皮尔逊相关系数与斯皮尔曼相关系数对比

  • 连续数据,正态分布,线性关系,最好使用 person。
  • 除此之外都使用 spearman。
  • 两个定序数据之间也只能用spearman。
    定序数据:仅仅反映观测对象的等级顺序关系的数据。(例如:优,良,差等)。

后续

 喜欢的话可以关注一下我的公众号技术开发小圈,尤其是对深度学习以及计算机视觉有兴趣的朋友,我会把相关的源码以及更多资料发在上面,希望可以帮助到新入门的大家!
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Rosen.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值