数学建模——相关系数

最新推荐文章于 2023-01-19 23:52:15 发布

丰丰小白

最新推荐文章于 2023-01-19 23:52:15 发布

阅读量1.7k

点赞数 1

分类专栏：数学建模文章标签：概率论算法线性代数数学建模美国大学生数学建模竞赛

本文链接：https://blog.csdn.net/sup1feng/article/details/122546314

版权

数学建模专栏收录该内容

9 篇文章 8 订阅

订阅专栏

相关系数

下面我们会讲解两种最为常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。它们可以用来衡量两个变量之间的相关性的大小，根据数据满足的不同条件，我们要选择不同的相关系数进行计算和分析（建模论文中最容易用错的方法）。

总体皮尔逊相关系数

回顾《概率论与数理统计》中的相关系数就是皮尔逊相关系数。
如果两组数据 $X: (X_1,X_2,X_3...X_n)$ 和 $Y:(Y_1,Y_2,Y_3...Y_n)$ 是总体数据，那么:
$总体均值：E(X)=\frac{\sum\limits_{i=1}^nX_i}{n},E(Y)=\frac{\sum\limits_{i=1}^nY_i}{n}$
$总体协方差：Cov(X,Y)=\frac{\sum\limits_{i=1}^n(X_i-E(X))(Y_i-E(Y))}{n}$
直观理解协方差：如果X、Y变化方向相同，即当X大于（小于）均值时，Y也大于（小于）其均值，在这两种情况下，乘积为正。如果X、Y变化方向一直保持相同，则协方差方向为正；同理，如果X、Y变化方向一直相反，则协方差为负；如果X、Y变化方向之间互无规律，即分子中的项有正有负，那么累加后正负抵消。
注意：协方差的大小和两个变量的量纲有关，因此不适合做比较。
$总体person相关系数：\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}=\frac{\sum\limits_{i=1}^n\frac{(X_i-E(X))}{\sigma_X}\frac{(Y_i-E(Y))}{\sigma_Y}}{n}$
$\sigma_X，\sigma_Y是X和Y的标准差，\sigma_X=\sqrt{\frac{\sum\limits_{i=1}^n(X_i-E(X))^2}{n}}，\sigma_Y 同理$
皮尔逊相关系数可以看成是剔除了两个变量量纲的影响，即将X和Y标准化后的协方差。
可以证明得到：
$|\rho_{XY}| \leq1,且当Y=aX+b时，\rho_{XY}=\begin{cases} 1 & a>0 \\ -1 & a<0 \end{cases}$

样本皮尔逊相关系数

如果两组数据 $X: (X_1,X_2,X_3...X_n)$ 和 $Y:(Y_1,Y_2,Y_3...Y_n)$ 是样本数据（一般调查得到的数据均为样本数据），那么:
$\overline X=\frac{\sum\limits_{i=1}^nX_i}{n},\overline Y=\frac{\sum\limits_{i=1}^nY_i}{n}$
$样本协方差：Cov(X,Y)=\frac{\sum\limits_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{n}$
$样本person相关系数：r_{XY}=\frac{Cov(X,Y)}{S_XS_Y}$
$其中，S_X是X的样本标准差，S_X=\sqrt{\frac{\sum\limits_{i=1}^n(X_i-\overline X)^2}{n-1}},S_Y同理。$
下面这张图是相关性的值不同时，散点呈现的图像。
在这里插入图片描述

关于皮尔逊相关系数的理解误区

这里的相关系数只是用来衡量两个变量线性相关程度的指标，也就是说，必须先确定这两个变量是线性相关的，然后这个相关系数才能反应这两个变量的相关程度如何。

所以我们得到相关系数的误区：
① 非线性相关也会导致线性相关系数很大
② 离群点对相关系数的影响很大
③ 如果两个变量的相关系数很大也不能说明两者相关，可能是收到了异常值的影响
④ 相关系数计算结果为0，只能说不是线性相关，但说不定会有更复杂的相关关系（非线性相关）

针对这些情况，我们做两点总结：
① 如果两个变量本身就是线性关系，那么皮尔逊相关系数绝对值大的就是相关性强，小的就是相关性弱。
② 在不确定两个变量是什么关系的情况下，即使算出皮尔逊相关系数，发现很大，也不能说明那两个变量线性相关，甚至不能说它们相关，我们一定要先画出散点图进行判断

相关性	负	正
无相关性	-0.09~0.0	0.0~0.09
弱相关性	-0.3~-0.1	0.1~0.3
中相关性	-0.5~-0.3	0.3~0.5
强相关性	-1.0~0.5	0.5~1.0

计算相关系数

首先使用matlab或者spss来画出散点图，判断是否有线性关系。然后使用matlab中计算相关系数自带的函数来计算相关系数，函数如下：

R = corrcoef(Test)   % correlation coefficient

丰丰小白

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数学建模——相关系数

相关系数下面我们会讲解两种最为常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。它们可以用来衡量两个变量之间的相关性的大小，根据数据满足的不同条件，我们要选择不同的相关系数进行计算和分析（建模论文中最容易用错的方法）。
复制链接

扫一扫