数学建模之相关系数

目录

概念引入

相关性可视化

协方差

皮尔逊Pearson相关系数

总体皮尔逊Pearson相关系数

样本皮尔逊Pearson相关系数

关于皮尔逊相关系数的一些理解误区

总结

假设检验(显著性)

对皮尔逊相关系数进行假设检验

 皮尔逊相关系数假设检验的条件

如何检验数据是否是正态分布?

 斯皮尔曼spearman相关系数

 两个相关系数的比较


概念引入

相关系数可用来衡量两个变量之间的相关性的大小。跟据数据满足的不同条件,选择不同的相关系数进行计算和分析。

什么是相关性?

相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关、不相关。

正相关就是你高兴那么她也高兴;负相关就是你不高兴,那么她高兴;不相关就是你的情绪与她无关。正相关和负相关都是存在关系的,有研究意义的,不相关就是Nothing。 

总体:考察对象的全部个体。               个体:总体的一部分 

相关性可视化

通过绘制散点图很容易判断两个数据对象x,y之间的相关性。

由散点图反映的相关性不是一个量化的指标,为了将相关性进行量化,下面将介绍一些常见的指标。

协方差

如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。

注意:协方差的大小与两个变量的量纲有关,因此不适合作比较。

皮尔逊Pearson相关系数

总体皮尔逊Pearson相关系数

 皮尔逊相关系数也可以看成将x,y标准化后的协方差。(剔除量纲的影响)

样本皮尔逊Pearson相关系数

 为什么样本方差分母是n-1呢?

彻底理解样本方差为何除以n-1

关于皮尔逊相关系数的一些理解误区

这里的相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。

举个栗子:

易错点

(1)非线性相关也会导致较大的线性相关系数(图2)

(2)离群点对于相关系数的影响很大(图3)

(3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。(图4)

(4)相关系数为0,只能说不是线性相关,说不定存在非线性相关。

总结

(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。

(2)在不确定两个变量之间的关系下,皮尔逊相关系数不能说明两个变量的线性关系,一定要结合散点图来看才行。

假设检验(显著性)

对皮尔逊相关系数进行假设检验

 常见的置信水平由:90%、95%、99%

 

 皮尔逊相关系数假设检验的条件

1、数据通常假设是来自于正态分布的总体。因此我们在求皮尔逊相关系数后,通常使用t检验的方法来进行皮尔逊相关系数的检验,而t检验是基于数据呈正态分布假设的。

2、实验数据之间的差距不能过大。皮尔逊相关系数受异常值的影响比较大。

3、每组样本之间是相互独立的。

如何检验数据是否是正态分布?

正态分布JB检验(雅克-贝拉检验)

条件:大样本n>30

 

 Shapiro‐wilk夏皮洛‐威尔克检验

小样本 30<=n<=50

QQ图检验

要利用Q-Q图鉴别样本数据是否近似于正态分布,只需看Q-Q图上的点是否近似地在一条直线附近。(数据量要求比较大)

 斯皮尔曼spearman相关系数

斯皮尔曼相关系数被定义为等级之间的皮尔逊相关系数

 两个相关系数的比较

 

 

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值