前面三节中介绍的平均数,方差,标准差等都是对一个随机变量的描述,如果想要了解两个随机变量之间的关系,可以使用协方差和相关系数。
协方差(covariance)
首先回顾一下方差的公式:
仿照方差的定义,协方差的公式如下:
从公式定义可以看出,方差是协方差的一个特殊情况,即当两个变量是相同的情况。
协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;协方差为负,说明X,Y反向变化,协方差越小说明反向程度越高;协方差为0,表示两个变量无线性相关。
相关系数(correlationcoefficient)
相关系数可以用来表示两个变量之间的线性关系,这里介绍一个最常见的相关系数:皮尔逊积矩相关系数(Pearson product-moment correlation),又叫皮尔逊积差相关系数,后面将简称为皮尔逊相关系数。需要说明的是,皮尔逊相关系数不是唯一的相关系数。
协方差可以刻画两个变量之间的线性关系,但受变量变化幅度的影响,通过除以标准差的方式可以剔除变化幅度的影响,这就是皮尔逊相关系数,计算公式如下:
是X与Y的协方差, 分别为X,Y的标准差,相关系数的计算公式进一步表示为:
皮尔逊相关系数的值域范围为[-1,1]。两个变量变化方向相同,相关是直接相关(direct correlation)或正相关(positive correlation); 两个变量变化方向相反,相关是间接相关(indirect correlation)或负相关(negative correlation)。计算皮尔逊积矩相关系数,除了要求X,Y是连续变量外,还需要满足一下一些条件:1)变量的总体接近正态分布,至少是单峰对称分布;2)每对数据的取值是相互独立的;3)当n小于30时,计算出的r是不可靠的。皮尔逊相关系数的绝对值越大,相关关系就越强。
相关系数绝对值的大小 | 一般解释 |
0.8~1.0 | 非常强的相关 |
0.6~0.8 | 强相关 |
0.4~0.6 | 中度相关 |
0.2~0.4 | 弱相关 |
0.0~0.2 | 弱相关或无相关 |
但需要注意的是相关系数和因果关系是没有联系的。
决定系数(coefficient ofdetermination)
一个变量的方差可以被另一个变量的方差解释的百分比,决定系数可以度量因果关系。
决定系数是相关系数的平方,值域为[0,1]
工具实现
Excel
R
Python
返回的第一个值是皮尔逊相关系数,第二个值是p值