目录
概念引入
相关系数可用来衡量两个变量之间的相关性的大小。跟据数据满足的不同条件,选择不同的相关系数进行计算和分析。
什么是相关性?
相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关、不相关。
正相关就是你高兴那么她也高兴;负相关就是你不高兴,那么她高兴;不相关就是你的情绪与她无关。正相关和负相关都是存在关系的,有研究意义的,不相关就是Nothing。
总体:考察对象的全部个体。 个体:总体的一部分
相关性可视化
通过绘制散点图很容易判断两个数据对象x,y之间的相关性。
由散点图反映的相关性不是一个量化的指标,为了将相关性进行量化,下面将介绍一些常见的指标。
协方差
如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小与两个变量的量纲有关,因此不适合作比较。
皮尔逊Pearson相关系数
总体皮尔逊Pearson相关系数
皮尔逊相关系数也可以看成将x,y标准化后的协方差。(剔除量纲的影响)
样本皮尔逊Pearson相关系数
为什么样本方差分母是n-1呢?
关于皮尔逊相关系数的一些理解误区
这里的相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。
举个栗子:
易错点
(1)非线性相关也会导致较大的线性相关系数(图2)
(2)离群点对于相关系数的影响很大(图3)
(3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。(图4)
(4)相关系数为0,只能说不是线性相关,说不定存在非线性相关。
总结
(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。
(2)在不确定两个变量之间的关系下,皮尔逊相关系数不能说明两个变量的线性关系,一定要结合散点图来看才行。
假设检验(显著性)
对皮尔逊相关系数进行假设检验
常见的置信水平由:90%、95%、99%
皮尔逊相关系数假设检验的条件
1、数据通常假设是来自于正态分布的总体。因此我们在求皮尔逊相关系数后,通常使用t检验的方法来进行皮尔逊相关系数的检验,而t检验是基于数据呈正态分布假设的。
2、实验数据之间的差距不能过大。皮尔逊相关系数受异常值的影响比较大。
3、每组样本之间是相互独立的。
如何检验数据是否是正态分布?
正态分布JB检验(雅克-贝拉检验)
条件:大样本n>30
Shapiro‐wilk夏皮洛‐威尔克检验
小样本 30<=n<=50
QQ图检验
要利用Q-Q图鉴别样本数据是否近似于正态分布,只需看Q-Q图上的点是否近似地在一条直线附近。(数据量要求比较大)
斯皮尔曼spearman相关系数
斯皮尔曼相关系数被定义为等级之间的皮尔逊相关系数
两个相关系数的比较