数学建模之相关系数

最新推荐文章于 2024-02-07 11:36:13 发布

韩韩的博客

最新推荐文章于 2024-02-07 11:36:13 发布

阅读量8.5k

点赞数 1

分类专栏：数学建模

本文链接：https://blog.csdn.net/qq_40605167/article/details/100626942

版权

数学建模专栏收录该内容

9 篇文章 21 订阅

订阅专栏

本文主要讲解皮尔逊相关系数和斯皮尔曼等级相关系数。根据数据满足的不同条件，我们要选择不同相关系数进行计算和分析。
区分两个概念：
总体：所要考察对象的全部个体叫做总体。
我们总是希望得到总体数据的一些特征（例如均值和方差）
样本：从总体中所抽取的一部分个体叫做总体的一个样本。
例如：使用样本的均值、样本标准差来估计总体的均值（平均水平）和总体的标准差（偏离程度）
总体皮尔逊相关系数：
回顾
在这里插入图片描述
直观理解协方差：
如果X、Y变化相同，即当X大于（小于）其均值时，Y也大于（小于）其均值，在这两种情况下，乘积为正。如果X、Y的变化方向一直都保持相同，则协方差为正。如果X、Y变化方向一直相反，那么协方差为负，如果X、Y变化方向之间相互无规律，即分子中有的项为正，有的项为负，那么累加后正负抵消。
注意：协方差的大小和两个变量的量纲有关，因此不适合做比较。
在这里插入图片描述
之前我们说协方差收到量纲的影响，那么我们用协方差除以X的标准差，除以Y的标准差。那么就可以剔除两个变量量纲的影响，即将X和Y标准化后的协方差。
总体皮尔逊相关系数的绝对值是小于等于1的，下面给出证明：
在这里插入图片描述
所以根据以上可得，皮尔逊相关系数放映的是线性相关系数。

样本皮尔逊相关系数

在这里插入图片描述
样本相关系数下面除的是样本标准差。

皮尔逊相关系数的一些理解误区

在这里插入图片描述
以上四个散点图对应的数据的皮尔逊相关系数均为0.816.
但是以上值都受到异常值的影响而产生相关系数不准确的情况。

这个图表示的相关系数为0.但是不能表示x，y之间没有关系。
相关系数知识用来衡量两个变量线性相关程度的指标，也就是说，你必须要先确认这两个变量之间是线性相关的，然后这个相关系数才能告诉你变量之间的相关程度如何。
错误总结
在这里插入图片描述

非线性相关也会导致线性相关系数很大，例如图2.
离群点对相关系数的影响很大，例如图3，去掉离群点后，相关系数为0.98.
如果两个变量的相关系数很大也不能说明两者相关，例如图四，可能是受到异常值的影响。
相关系数计算结果为0，只能说不是线性相关，但说不定会有更复杂的相关关系（非线性相关），例如图5.
两点总结
如果两个变量本身就是线性的关系，那么皮尔逊相关系数绝对值大的就是相关性强，小的就是相关性弱。
在不确定两个变量是什么关系的情况下，即使算出皮尔逊相关系数，发现很大，也不能说明那两个变量线性相关，甚至不能说他们相关，我们一定要画出散点图来看才行。

对相关系数大小的解释

在这里插入图片描述
上表所定的标准从某种意义上来说是不严格的，对相关系数的解释是依赖于具体的应用背景和目的的。
事实上，比起相关系数的大小，我们往往更关注的是显著性（假设检验）
一个栗子
现有某中学八年级所有女学生的体测样本数据，请见下表，试计算各变量之间的皮尔逊相关系数。
在这里插入图片描述
在栗子之前：
描述性统计

使用SPSS绘制散点图：