本文主要讲解皮尔逊相关系数和斯皮尔曼等级相关系数。根据数据满足的不同条件,我们要选择不同相关系数进行计算和分析。
区分两个概念:
总体:所要考察对象的全部个体叫做总体。
我们总是希望得到总体数据的一些特征(例如均值和方差)
样本:从总体中所抽取的一部分个体叫做总体的一个样本。
例如:使用样本的均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
总体皮尔逊相关系数:
回顾
直观理解协方差:
如果X、Y变化相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直都保持相同,则协方差为正。如果X、Y变化方向一直相反,那么协方差为负,如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
之前我们说协方差收到量纲的影响,那么我们用协方差除以X的标准差,除以Y的标准差。那么就可以剔除两个变量量纲的影响,即将X和Y标准化后的协方差。
总体皮尔逊相关系数的绝对值是小于等于1的,下面给出证明:
所以根据以上可得,皮尔逊相关系数放映的是线性相关系数。
样本皮尔逊相关系数
样本相关系数下面除的是样本标准差。
相关性可视化
通过绘制散点图可以判定两个数据对象x和y之间的相关性。
相关系数为-1或者1是指正负相关性。越接近-1或者1就说明越是一条直线。
皮尔逊相关系数的一些理解误区
以上四个散点图对应的数据的皮尔逊相关系数均为0.816.
但是以上值都受到异常值的影响而产生相关系数不准确的情况。
这个图表示的相关系数为0.但是不能表示x,y之间没有关系。
相关系数知识用来衡量两个变量线性相关程度的指标,也就是说,你必须要先确认这两个变量之间是线性相关的,然后这个相关系数才能告诉你变量之间的相关程度如何。
错误总结
- 非线性相关也会导致线性相关系数很大,例如图2.
- 离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98.
- 如果两个变量的相关系数很大也不能说明两者相关,例如图四,可能是受到异常值的影响。
- 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5.
两点总结 - 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱。
- 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。
对相关系数大小的解释
上表所定的标准从某种意义上来说是不严格的,对相关系数的解释是依赖于具体的应用背景和目的的。
事实上,比起相关系数的大小,我们往往更关注的是显著性(假设检验)
一个栗子
现有某中学八年级所有女学生的体测样本数据,请见下表,试计算各变量之间的皮尔逊相关系数。
在栗子之前:
描述性统计
使用SPSS绘制散点图:
得到散点图如下:
皮尔逊相关系数的计算
corrcoef函数:
R=corrcoef(A)
返回A的相关系数矩阵,其中A的列表示随机变量(指标),行表示观测值(样本)
R=corrcoef(A,B)
返回两个随机变量A和B(两个向量)之间的系数