原标题:R语言相关性分析(下)
7月8日的微信推文中,给大家介绍了相关性分析(戳这里)。本文是这篇文章的下篇,给大家讲讲如何利用R语言做相关性分析。
相关性分析
cor函数的完整语法如下:
cor(x,y = NULL,use=“everything”,method= c(“pearson”,“kendall”,“spearman”))
也就是说相关性计算有三种方法:pearson、kendall和spearman。
1
pearson相关系数
算法如下:
代数算法比较难理解,但分子我们可以看到是个协方差,只是少了除以n-1,而分母是我们很熟悉的标准差,同样少了除以n-1。可以看出分子分母都少了除以n-1,正好抵消。也就意味相关性系数就是协方差除以标准差。
甚至我们可以写成:
其中cov既是协方差的缩写,也是R中的函数名称。如果想了解这个计公式,我们还要分为三个部分。
1
协方差
可以通俗地理解为:两个变量在变化过程中的变化方向是否一致,以及一致的程度。
如果两个变量,A变大,同时B也变大,说明两个变量是同向变化的,这时协方差就是正的。A变大,同时B变小,说明两个变量是反向变化的,这时协方差就是负的。从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
公式: