相关性检验-Spearman秩相关系数和皮尔森相关系数

转载 2015年07月09日 15:31:34

感谢原作者Orisun。介绍的很详细

皮尔逊相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment coreelation coefficient),是用来

反映两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中应用广泛)。


分子是协方差,分母是两个变量标准差的乘积,要求X和Y的标准差都不能为0

当两个变量的线性关系增强时,相关系数趋于1或-1,正相关时趋于1,负相关时趋于-1.当两个变量相互独立时为0,反之不成立,e.g:

y=x2,X服从[-1,1]上的均匀分布,此时E(XY)为0,E(X)也为0,所以皮尔逊相关系数也为0,但是x和y明显不独立。

但是,当Y和X服从联合正态分布时,其相互独立和不相关是等价的。

居中:每个数据减去样本均值,居中后他们的平均值就为0。

E(X)和E(Y)=0,此时有:


即相关系数可以看做是两个随机变量中得到的样本集向量之间家教的Cosine函数。

当X和Y向量归一化后,||X||=||Y||=1,相关系数,即为两个向量的乘积  


使用Pearson线性相关系数有两个局限:

1.必须假设数据是成对地从正态分布中取得

2.数据至少在逻辑范围内是等距的

Spearman秩相关系数就是其中一种解决方法,Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或者-1,称变量完全Spearman秩相关。

对原始数据xi,yi按从大到小排序,记x'i,y'i为原始xi,yi在排序后列表中的位置,x'i,y'i称为xi,yi的秩次,秩次差di=x'i-y'i。Spearman秩相关系数为:


位置 原始X 排序后 秩次 原始Y 排序后 秩次 秩次差
1 12 546 5 1 78 6 1
2 546 45 1 78 46 1 0
3 13 32 4 2 45 5 1
4 45 13 2 46 6 2 0
5 32 12 3 6 2 4 1
6 2 2 6 45 1 3 -3

对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

查阅秩相关系数检验的临界值表

n 显著水平
0.01 0.05
5 0.9 1
6 0.829 0.943
7 0.714 0.893

n=6时,0.6571<0.829,所以在0.01的显著水平下认为X和Y是不相关的。

如何原始数据中有重复值,则在求秩次时要以它们的平均值为准,比如:

原始X 秩次 调整后的秩次
0.8 5 5
1.2 4 (4+3)/2=3.5
1.2 3 (4+3)/2=3.5
2.3 2 2
18 1 1

相关性和相似度的区别

X=(1,2,3)跟Y=(4,5,6)的皮尔森相关系数等于1,说明X和Y是严格线性相关的(事实上Y=X+3)。

但是X和Y的相似度却不是1,如果用余弦距离来度量,X和Y之间的距离明显大于0。


SPSS——相关分析——Spearman秩相关系数

简介斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性...
  • liuyuan_jq
  • liuyuan_jq
  • 2016年09月14日 23:02
  • 13438

相关性检验--Spearman秩相关系数和皮尔森相关系数

本文给出两种相关系数,系数越大说明越相关。你可能会参考另一篇博客独立性检验。 皮尔森相关系数 皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数...
  • promise_LOVE
  • promise_LOVE
  • 2015年06月08日 11:06
  • 3127

相关性检验-Spearman秩相关系数和皮尔森相关系数

感谢原作者Orisun。介绍的很详细 皮尔逊相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment coreel...
  • GcooQ
  • GcooQ
  • 2015年07月09日 15:31
  • 1129

相关性检验-Spearman秩相关系数和皮尔森相关系数

感谢原作者Orisun。介绍的很详细 皮尔逊相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment coreel...
  • GcooQ
  • GcooQ
  • 2015年07月09日 15:31
  • 1129

Spearman秩相关系数和Pearson皮尔森相关系数

1、Pearson皮尔森相关系数皮尔森相关系数也叫皮尔森积差相关系数,用来反映两个变量之间相似程度的统计量。或者说用来表示两个向量的相似度。皮尔森相关系数计算公式如下:  分子是协方差,分母两个向量的...
  • u011089523
  • u011089523
  • 2016年11月03日 17:09
  • 1011

pearson, kendall 和spearman三种相关分析方法的区别

1. Pearson相关 Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分...
  • lilanfeng1991
  • lilanfeng1991
  • 2014年05月13日 09:14
  • 4011

相关检验

正确性分析:(模型稳定性分析,稳健性分析,收敛性分析,变化趋势分析,极值分析等)有效性分析:误差分析,参数敏感性分析,模型对比检验 有用性分析:关键数据求解,极值点,拐点,变化趋势分析,用数据验证动...
  • christmasxu
  • christmasxu
  • 2015年12月15日 10:59
  • 590

统计学三大相关系数之皮尔森(pearson)相关系数

最早接触pearson相关系数时,是和同学一起搞数学建模,当时也是需要一种方法评价两组数据之间的相关性,于是找到了皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数。其实,还有一种...
  • AlexMerer
  • AlexMerer
  • 2017年07月10日 08:58
  • 2710

统计相关系数(2)——Spearman Rank(斯皮尔曼等级)相关系数

1、简介 在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以...
  • shuangyufrank
  • shuangyufrank
  • 2014年12月17日 10:58
  • 2225

[秩相关] Spearman秩相关系数计算及假设检验

首先说明秩相关系数还有其他类型,比如kendal秩相关系数。 使用Pearson线性相关系数有2个局限: 必须假设数据是成对地从正态分布中取得的。数据至少在逻辑范围内是等距的。 对于更一般的...
  • zhaozhn5
  • zhaozhn5
  • 2017年10月30日 09:59
  • 242
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:相关性检验-Spearman秩相关系数和皮尔森相关系数
举报原因:
原因补充:

(最多只允许输入30个字)