数学建模笔记(四)相关系数
文章目录
前言
此系列文章主要记录在学习数学建模过程中的知识点和自己的理解,如果出错请多多指正。
学习的教材和资源主要来源与清风的讲解视频,想全面了解可移步清风:清风:数学建模算法、编程和写作培训的视频课程以及Matlab等软件教学 ·
一、相关系数?
相关系数,顾名思义,即用来衡量两个变量之间的相关性的大小
在这我们主要讨论两种相关系数:皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数
在介绍以下相关系数之前,先介绍两个基础概念
样本和总体
总体——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等)
样本———从总体中所抽取的一部分个体叫做总体的一个样本.
计算这些抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。
二、皮尔逊Pearson相关系数
皮尔逊相关系数其实就为我们在概率论中学习的定义的相关系数,不过我们在这划分了两类,一类为总体皮尔逊相关系数,一类为样本皮尔逊相关系数。
注意事项
我们这里所说的皮尔逊相关系数,是用来衡量两个变量之间的线性相关程度的指标;
也就是说,只有确认两个变量是线性相关,才可以使用这个相关系数,去判断两个变量线性相关的程度。
如上例,很明显温度应该和冰淇淋的销量是有一定的关系的,但通过相关系数公式计算处理,其相关系数为0
不过在事实上,比起相关系数的大小,我们更关注的是显著性——引出假设检验
三、对皮尔逊相关系数进行假设检验
第一步:提出原假设H0和备择假设H1,假设我们计算出一个皮尔逊相关系数r,我们想检验它是否显著异于0(相关系数显著异于0说明越相关)。则我们的原假设为H0:r = 0,H1:r ≠ 0
第二步:在原假设成立的条件下,利用我们要检验的量构造一个符合某一分布的统计量,
第三步:将我们要检验的量带入这个统计量,可以得到一个特定的值(检验值)
第四步:由于我们知道统计量的分布情况,我们可以画出概率密度函数,并给定一个置信水平,根据这个置信水平,查表得到统计量的接受域和拒绝域。
常见的置信水平有三个:90%,95%和99%
第五步:看我们计算出来的统计量是落在了接受域还是拒绝域,最后来下结论。
这里为什么要假设检验:依照我的理解,仅仅计算相关系数没法代表两个数据间的相关性,而我们应该通过假设检验去从说明数据的显著性水平,从而去说明数据之间的相关性。
皮尔逊相关系数假设检验的条件
第一, 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。
第二, 实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大。
第三:每组样本之间是独立抽样的。构造t统计量时需要用到。
那么我们要用皮尔逊相关系数,就意味着我们先要验证我们的数据是正态分布的,下面给出常用的两种方法检验数据是否满足正态分布。
正态分布JB检验(大样本 n>30)
那么我们就可以用上面的假设检验来验证
1)H0:该随机变量服从正态分布,H1:该随机变量不服从正态分布
2)计算检验变量的峰度和偏度,得到检验值JB,并计算其检验值,最后看是否落拒绝域内。
这里简单说一下偏度和峰度
偏度:正态分布的对称轴对于的x坐标
峰度:正态分布的最高点
小样本3≤n≤50:Shapiro-wilk检验
我们仿照JB检验的步骤,只是把统计量换成了威尔克统计量
一般上述的两种检验方法我们都可以通过SPSS软件帮我们对数据进行检验(会在后续的文章中介绍软件的使用
四、斯皮尔曼spearman相关系数
我们除了用皮尔逊相关系数以外,我们还可以使用斯皮尔曼相关系数,与皮尔逊相关系数不同的是
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。
定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量
形成的,表现为类别,可以进行排序,属于品质数据。
例如优良差等
斯皮尔曼相关系数的定义如下
我们使用斯皮尔曼相关系数时,同样也是通过假设检验的方法来确定数据的显著性水平的,下面就不再举例。
总结
相关系数主要分为两种,皮尔逊相关系数和斯皮尔曼相关系数,在使用时,我们要注意二者之间的区别和使用条件。
我们应该利用假设检验的方法来验证数据的相关性,单纯的相关系数无法反应数据之间的关系。
后续会写一些具体计算相关系数的文章。