R语言相关分析

最新推荐文章于 2025-07-20 20:39:33 发布

原创

最新推荐文章于 2025-07-20 20:39:33 发布 · 2.9w 阅读

80 ·

CC 4.0 BY-SA版权

文章标签：

#R语言 #相关分析

本文介绍了R语言中进行相关分析的方法，包括Pearson、Spearman和Kendall相关系数的计算，以及如何进行相关性的显著性检验。同时，讨论了偏相关的概念，并提到了使用ggm包的pcor()函数进行计算。最后，文章提及了相关关系的可视化在分析中的重要性。

相关分析

相关系数可以用来描述定量变量之间的关系。相关系数的符号（±）表明关系的方向（正相关或负相关），其值的大小表示关系的强弱程度（完全不相关时为0，完全相关时为1）。我们将关注多种相关系数和相关性的显著性检验。我们将使用R基础安装中的state.x77数据集，它提供了美国50个州在1977年的Population(人口)、Income(收入)、Illiteracy(文盲率)、LifeExp(预期寿命)、Murder(谋杀率)和HSGrad(高中毕业率)数据。数据集中还收录了Frost(气温)和Area(土地面积数据)，但为了节约空间，这里将其丢弃。

1.相关的类型

R可以计算多种相关系数，包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格（polychoric）相关系数和多系列（polyserial）相关系数。

1.1. Pearson、Spearman和Kendall相关

Pearson积差相关系数衡量了两个定量变量之间的线性相关程度。它是说明有直线关系的两变量间，相关关系密切程度和相关方向的统计指标。

Spearman等级相关系数则衡量分级定序变量之间的相关程度。

Kendall’s Tau相关系数也是一种非参数的等级相关度量。如欲考察几位老师对多篇作文的评分标准是否一致(又称评分者信度)，就应该使用肯德尔系数。
对于定序数据而言， Spearman系数与Pearson系数是等价的；如果一个变量为定量数据，一个变量为定序数据，应计算Spearman系数或将定量数据变为定序数据后使用Pearson系数。
肯达尔t系数一个重要优点在于便于解释，如果肯达尔系数等于1/3，意味着：一致情况的出现频率是不一致的两倍（1+t/1-t)

cor() 函数可以计算这三种相关系数，而cov()函数可用来计算协方差。两个函数的参数有很多，其中与相关系数的计算有关的参数可以简化为：

cor(x,use=,method=)

x指矩阵或数据框；

use指定缺失数据的处理方式，可选的方式为all.obs（假设不存在缺失数据——遇到缺失数据时将报错）、everything（遇到缺失数据时，相关系数的计算结果将被设为missing）、complete.obs（行删除）以及pairwise.complete.obs（成对删除，pairwisedeletion）；

method指定相关系数的类型。可选类型为pearson、spearman或kendall

states<-state.x77[,1:6]
cov(states)
cor(states)
cor(states,method = "spearman")
cor(mtcars,method = "kendall")

请注意，在默认情况下得到的结果是一个方阵（所有变量之间两两计算相关）。你同样可以计算非方形的相关矩阵。观察以下示例：

最低0.47元/天解锁文章

200万优质内容无限畅学