【数模】相关性分析

最新推荐文章于 2024-08-21 06:00:00 发布

Sophon、

最新推荐文章于 2024-08-21 06:00:00 发布

阅读量4.3k

点赞数 4

分类专栏：数学建模文章标签：皮尔逊斯皮尔曼相关性分析数学建模

本文链接：https://blog.csdn.net/qq_55799677/article/details/125970550

版权

数学建模专栏收录该内容

22 篇文章 10 订阅

订阅专栏

声明：文章参考数学建模清风的网课编写。

文章目录

皮尔逊相关系数使用误区

非线性相关也可能导致相关系数很大；
离群点对相关系数影响很大；
相关系数很大也不能说明两变量相关，有可能收到异常值影响；
相关系数为0不能说明两变量无相关性，也许存在更复杂的关系（如二次）。

使用person相关系数应注意：

确定两变量是线性关系时，person相关系数才有意义；
person相关系数绝对值很大或接近0不能说明相关性大小，甚至不能说明相关。可以作相关性检验前画散点图来初步判断是否有线性相关趋势。

假设检验

假设检验基本步骤：

确定原假设与备择假设（原假设与备择假设是互斥事件，二者概率和为1）。
确定 $\alpha$ 即显著性水平（我们有多大概率拒绝原假设）， $\alpha$ 又被称为犯第一类错误的概率，因为我们的出发点是“小概率事件在一次试验中基本上不会发生”，但小概率事件仍有可能发生。
置信水平 $\beta = 1- \alpha$ ，相信原假设成立的概率（一般是90%、95%或99%）。
在原假设成立的条件下构造符合某一分布的统计量（统计量相当于我们为要检验量的一个函数不能包含其它随机变量）。
将检验值带入我们构造的统计量中，得到 $P$ 值。 $P$ 值：根据统计量的大小和分布确定出检验值发生的概率。
得出结论。如果 $P$ 值落在拒绝域中（ $\alpha$ ）说明：对于一次检验发生了小概率事件，于是我们称在 $\beta$ 的置信水平上拒绝原假设；但如果 $P$ 值落在接受域中（ $\alpha$ ）并不能说明任何问题（因为接受域是大概率事件，本来就应该发生不是吗），此时我们称在 $\beta$ 的置信水平上无法拒绝原假设。

假设检验的基本思想是“小概率事件”原理，其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设，再用适当的统计方法，利用小概率原理，确定假设是否成立。即为了检验一个假设H0是否正确，首先假定该假设H0正确，然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生，就应拒绝假设H0，否则应接受假设H0 。

一组随机变量相关性分析步骤

假设有n个样本，p个指标（每一个指标都是一个随机变量），构成大小为n*p的样本矩阵x:
$\begin{bmatrix} x_{11}& x_{12}& ...& x_{1p}\\ x_{21}& x_{22}& ...& x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}& x_{n2}& ...& x_{np} \end{bmatrix} = \begin{bmatrix} x_{1},x_{2} , \dots ,x_{p} \end{bmatrix}$

例如指标为：身高、体重、肺活量、50米跑、立定跳远、坐位体前屈时（下图只截取了部分数据）：

在这里插入图片描述

注意：进行相关性分析之前必须要画散点图初步判断随机变量之间是否适合作线性相关分析。

绘制散点图初判相关性

这里推荐使用SPSS进行多个随机变量两两之间散点图的绘制：

将数据导入SPSS：
选择矩阵散点图：
选择绘制变量：
得到绘制效果：

求出person系数并假设检验

观察图中变量间的趋势可以发现大部分数据不能呈现出线性相关，我们先忽略这一点接着叙述相关性分析的步骤。使用matlab函数corrcoef()求出指标两两间的相关系数。
得到结果：

>> cor = corrcoef(A)
cor =

    1.0000    0.0665   -0.2177   -0.1920    0.0440    0.0951
    0.0665    1.0000    0.0954    0.0685    0.0279   -0.0161
   -0.2177    0.0954    1.0000    0.2898    0.0248   -0.0749
   -0.1920    0.0685    0.2898    1.0000   -0.0587   -0.0019
    0.0440    0.0279    0.0248   -0.0587    1.0000   -0.0174
    0.0951   -0.0161   -0.0749   -0.0019   -0.0174    1.0000

对结果进行初步解释（单元格ij表示第i行和第j列随机变量的相关性）：
在这里插入图片描述
使用函数corrcoef()的重载版本可以一同求出 $P$ 值：

>> [cor, P] = corrcoef(A)

cor =

    1.0000    0.0665   -0.2177   -0.1920    0.0440    0.0951
    0.0665    1.0000    0.0954    0.0685    0.0279   -0.0161
   -0.2177    0.0954    1.0000    0.2898    0.0248   -0.0749
   -0.1920    0.0685    0.2898    1.0000   -0.0587   -0.0019
    0.0440    0.0279    0.0248   -0.0587    1.0000   -0.0174
    0.0951   -0.0161   -0.0749   -0.0019   -0.0174    1.0000


P =

    1.0000    0.1061    0.0000    0.0000    0.2859    0.0208
    0.1061    1.0000    0.0204    0.0960    0.4978    0.6963
    0.0000    0.0204    1.0000    0.0000    0.5469    0.0687
    0.0000    0.0960    0.0000    1.0000    0.1542    0.9637
    0.2859    0.4978    0.5469    0.1542    1.0000    0.6728
    0.0208    0.6963    0.0687    0.9637    0.6728    1.0000

这里的 $P$ 值是基于以下几个条件求出的：

原假设：变量i和变量j不相关。
备择假设：变量i和变量j相关。
统计量的构造以及检验值（检验值 = 变量i和变量j的person系数）的带入已经由matlab封装并完成了。

根据P值的取值范围我们可以说明：

变量之间是否显著相关：

$P$ 值是否小于	是	否
0.01	在99%的置信水平上拒绝原假设（变量i和变量j显著相关）	在99%的置信水平上无法拒绝原假设
0.05	在95%的置信水平上拒绝原假设（变量i和变量j显著相关）	在95%的置信水平上无法拒绝原假设
0.10	在90%的置信水平上拒绝原假设（变量i和变量j显著相关）	在90%的置信水平上无法拒绝原假设

标注person系数的显著程度（以SPSS标注为例（分析->相关->双变量））：

正态分布检验

我们使用matlab求出 $P$ 值是为了对person系数的显著性水平进行假设检验。但是person相关系数假设检验是有条件的：

实验数据通常假设是成对的来自于正态分布总体（求解 $P$ 值构造统计量是基于数据呈正态分布的假设的）；
实验数据之间差距不能太大（person相关系数容易受异常值影响）；
每组样本之间是独立抽样的（求解 $P$ 值构造统计量要用到）。

两种正态分布检验：

雅克-贝拉检验（Jarque-Bera test）
对于一个随机变量 $X$ ，假设偏度为 $S$ ，峰度为 $k$ ，那么我们可以构造 $J B$ 统计量：
$\frac{n}{6} \left [ s^2 + \frac{(K - 3)^2}{4} \right ]$
可以证明，如果 $X$ 服从正态分布，那么在大样本情况下（n>30） $JB-\chi ^2(2)$ （自由度为2的卡方分布）。

进行假设检验步骤如下：
原假设：该变量服从于正态分布。备择假设：该变量不服从正态分布。然后计算检验值 $JB^*$ 代入并计算正态分布检验的 $P$ 值，并与 $\alpha$ 显著水平作比较。

使用matlab进行正态假设检验：
使用函数jbtest( $X$ , $\alpha$ )返回检验结果（结果为1表示拒绝原假设）和正态分布检验的 $P$ 值。其中 $X$ 表示一组随机变量是一个向量，注意不能是多组随机变量。 $\alpha$ 为显著性水平值。
输入：
```
[n, m] = size(A);

h = zeros(1, m);
p = zeros(1, m);

for i = 1:m
	% 正态分布检验
    [h(i), p(i)] = jbtest(A(:, i), 0.05);
end

disp(h);
disp(p);
```
输出：
```
     1     1     1     1     1     1

    0.0110    0.0010    0.0136    0.0010    0.0010    0.0393
```
可以看到，正太检验全不通过（无法在95%的置信水平上拒绝原假设）。也因此，之前的假设检验工作作废了。
夏皮洛-威尔克检验（Shapiro-wilk）
夏皮洛-威尔克检验适用于小样本（3<=n<=50）进行假设检验步骤如下：
原假设：该变量服从于正态分布。备择假设：该变量不服从正态分布。然后计算正态分布检验的 $P$ 值（SPSS翻译为显著性），并与 $\alpha$ 显著水平作比较。

使用SPSS进行正态假设检验：
1.打开SPSS依次选择：

2 如图依次勾选：

3.得到结果（最后一列即为 $P$ 值）：
在这里插入图片描述

斯皮尔曼相关系数（Spearman）

在介绍斯皮尔曼相关系数之前我们回顾以下person相关系数的使用条件。使用person相关系数前，首先需要作散点图初步判断是否线性相关；然后，求出person相关系数的值；最后，如果我们需要判断相关性是否显著需要先进行正态分布检验，后进行显著性检验。
与person相关系数不同，斯皮尔曼相关系数使用条件要弱很多。
定义： $X$ 和 $Y$ 为两组随机变量，其斯皮尔曼（等级）相关系数：
$r_{i} = 1 - \frac{8\sum_{i=1}^{n} d_{i}^2}{n(n^2-1)}$
其中， $d_{i}$ 为 $X_{i}$ 和 $Y_{i}$ 之间的等级差。（一个数的等级，就是将一列数从小到大排列后，这个数所在位置。注意：求解斯皮尔曼系数，两个数相同时要将它们的位置取算术平均值。）

可以证明， $-1\le r_{i}\le 1$ 。
使用matlab求Spearman相关系数：

corr( $X$ , $Y$ , ‘type’, ‘Spearman’)
这里的 $X$ 和 $Y$ 必须为列向量，表示求两列随机变量的Spearman相关系数。

corr( $X$ , ‘type’, ‘Spearman’)
这里的 $X$ 是一个矩阵，每一列都是一个随机变量。表示求矩阵个列两两之间的Spearman相关系数。

s = corr(A, 'type', 'Spearman')

s =

    1.0000    0.0301   -0.2430   -0.1990    0.0624    0.1099
    0.0301    1.0000    0.1305    0.0898    0.0216   -0.0488
   -0.2430    0.1305    1.0000    0.2626    0.0219   -0.0801
   -0.1990    0.0898    0.2626    1.0000   -0.0910   -0.0029
    0.0624    0.0216    0.0219   -0.0910    1.0000   -0.0399
    0.1099   -0.0488   -0.0801   -0.0029   -0.0399    1.0000

使用重载版本获得 $P$ 值：

>> [s, p]= corr(A, 'type', 'Spearman')

s =

    1.0000    0.0301   -0.2430   -0.1990    0.0624    0.1099
    0.0301    1.0000    0.1305    0.0898    0.0216   -0.0488
   -0.2430    0.1305    1.0000    0.2626    0.0219   -0.0801
   -0.1990    0.0898    0.2626    1.0000   -0.0910   -0.0029
    0.0624    0.0216    0.0219   -0.0910    1.0000   -0.0399
    0.1099   -0.0488   -0.0801   -0.0029   -0.0399    1.0000


p =

    1.0000    0.4647    0.0000    0.0000    0.1295    0.0075
    0.4647    1.0000    0.0015    0.0290    0.5996    0.2362
    0.0000    0.0015    1.0000    0.0000    0.5944    0.0517
    0.0000    0.0290    0.0000    1.0000    0.0270    0.9436
    0.1295    0.5996    0.5944    0.0270    1.0000    0.3330
    0.0075    0.2362    0.0517    0.9436    0.3330    1.0000