皮尔逊相关系数
我们先回顾下《概率论与数理统计》中的内容:
如果两组数据 X:{X1,X2,...Xn} 和 Y:{Y1,Y2,...Yn} 是总体数据,总体均值分别为E(X)和E(Y),那么总体协方差:
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,则协方差为正;如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。(因此总体协方差可以反映X、Y的相关性)
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。Pearson相关系数就是为了消除变量量纲的影响。
总体Pearson相关系数:
其中 、
分别是X、Y的标准差:
可以证明,||
1,且当 Y = aX+b 时,
Pearson相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
假设 X:{X1,X2,...Xn} 和 Y:{Y1,Y2,...Yn} 是两组样本数据,、
分别为样本均值,那么
样本协方差:
样本Pearson相关系数:
其中 、
分别是X、Y的标准差:
关于皮尔逊相关系数的一些理解误区:
皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标,也就是说,必须先确认这两个变量是线性相关的,然后这个Pearson相关系数才能告诉你他俩相关程度如何。
总结:
(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数发现很大,也不能说明这两个变量线性相关,甚至不能说它们相关,我们一定要画出散点图来看才行。
对相关系数大小的解释
相关性 | 负 | 正 |
---|---|---|
无相关性 | -0.09~~0.0 | 0.0~~0.09 |
弱相关性 | -0.3~~-0.1 | 0.1~~0.3 |
中相关性 | -0.5~~-0.3 | 0.3~~0.5 |
强相关性 | -1.0~~-0.5 | 0.5~~1.0 |
(上表所定的标准从某种意义上说是武断的和不严格的;对相关系数的解释是依赖于具体的应用背景和目的的)
事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)
假设检验
置信水平 :相信原假设成立的概率(一般取90%,95%,99%)
显著性水平 :犯第一类错误的概率(我们有多大的可能性拒绝原假设)
第一步:确定原假设 和备择假设
(
和
是恰好相反的两面);
第二步:在原假设 成立的条件下,根据我们要检验的量构造一个分布(如标准正态分布、t分布、F分布、卡方分布);
第三步:给定一个置信水平 β (相信 成立的概率),求出接受域;对于双侧检验即求 P(a ≤ 统计量 ≤ b) = β,对于单侧检验即求 P(-∞ ≤ 统计量 ≤ b) = β
第四步:用已知的样本数据代入统计量