数学建模之相关系数

本文主要讲解皮尔逊相关系数和斯皮尔曼等级相关系数。根据数据满足的不同条件,我们要选择不同相关系数进行计算和分析。
区分两个概念:
总体:所要考察对象的全部个体叫做总体。
我们总是希望得到总体数据的一些特征(例如均值和方差)
样本:从总体中所抽取的一部分个体叫做总体的一个样本。
例如:使用样本的均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
总体皮尔逊相关系数:
回顾
在这里插入图片描述
直观理解协方差:
如果X、Y变化相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直都保持相同,则协方差为正。如果X、Y变化方向一直相反,那么协方差为负,如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
在这里插入图片描述
之前我们说协方差收到量纲的影响,那么我们用协方差除以X的标准差,除以Y的标准差。那么就可以剔除两个变量量纲的影响,即将X和Y标准化后的协方差。
总体皮尔逊相关系数的绝对值是小于等于1的,下面给出证明:
在这里插入图片描述
所以根据以上可得,皮尔逊相关系数放映的是线性相关系数。

样本皮尔逊相关系数

在这里插入图片描述
样本相关系数下面除的是样本标准差。

相关性可视化

通过绘制散点图可以判定两个数据对象x和y之间的相关性。
在这里插入图片描述
相关系数为-1或者1是指正负相关性。越接近-1或者1就说明越是一条直线。

皮尔逊相关系数的一些理解误区

在这里插入图片描述
以上四个散点图对应的数据的皮尔逊相关系数均为0.816.
但是以上值都受到异常值的影响而产生相关系数不准确的情况。
在这里插入图片描述
这个图表示的相关系数为0.但是不能表示x,y之间没有关系。
相关系数知识用来衡量两个变量线性相关程度的指标,也就是说,你必须要先确认这两个变量之间是线性相关的,然后这个相关系数才能告诉你变量之间的相关程度如何。
错误总结
在这里插入图片描述
在这里插入图片描述

  • 非线性相关也会导致线性相关系数很大,例如图2.
  • 离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98.
  • 如果两个变量的相关系数很大也不能说明两者相关,例如图四,可能是受到异常值的影响。
  • 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5.
    两点总结
  • 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。
  • 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。
对相关系数大小的解释

在这里插入图片描述
上表所定的标准从某种意义上来说是不严格的,对相关系数的解释是依赖于具体的应用背景和目的的。
事实上,比起相关系数的大小,我们往往更关注的是显著性(假设检验)
一个栗子
现有某中学八年级所有女学生的体测样本数据,请见下表,试计算各变量之间的皮尔逊相关系数。
在这里插入图片描述
在栗子之前:
描述性统计
在这里插入图片描述
使用SPSS绘制散点图:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
得到散点图如下:
在这里插入图片描述

皮尔逊相关系数的计算

corrcoef函数:
R=corrcoef(A)
返回A的相关系数矩阵,其中A的列表示随机变量(指标),行表示观测值(样本)
R=corrcoef(A,B)
返回两个随机变量A和B(两个向量)之间的系数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值