R语言相关分析

本文介绍了R语言中进行相关分析的方法,包括Pearson、Spearman和Kendall相关系数的计算,以及如何进行相关性的显著性检验。同时,讨论了偏相关的概念,并提到了使用ggm包的pcor()函数进行计算。最后,文章提及了相关关系的可视化在分析中的重要性。
摘要由CSDN通过智能技术生成

相关分析

相关系数可以用来描述定量变量之间的关系。相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)。我们将关注多种相关系数和相关性的显著性检验。我们将使用R基础安装中的state.x77数据集,它提供了美国50个州在1977年的Population(人口)、Income(收入)、Illiteracy(文盲率)、LifeExp(预期寿命)、Murder(谋杀率)和HSGrad(高中毕业率)数据。数据集中还收录了Frost(气温)和Area(土地面积数据),但为了节约空间,这里将其丢弃。

1.相关的类型

R可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格(polychoric)相关系数和多系列(polyserial)相关系数。

1.1. Pearson、Spearman和Kendall相关

Pearson积差相关系数衡量了两个定量变量之间的线性相关程度。它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。

Spearman等级相关系数则衡量分级定序变量之间的相关程度。

Kendall’s Tau相关系数也是一种非参数的等级相关度量。如欲考察几位老师对多篇作文的评分标准是否一致(又称评分者信度),就应该使用肯德尔系数。
对于定序数据而言, Spearman系数与Pearson系数是等价的;如果一个变量为定量数据,一个变量为定序数据,应计算Spearman系数或将定量数据变为定序数据后使用Pearson系数。
肯达尔t系数一个重要优点在于便于解释,如果肯达尔系数等于1/3,意味着:一致情况的出现频率是不一致的两倍(1+t/1-t)

cor() 函数可以计算这三种相关系数,而cov()函数可用来计算协方差。两个函数的参数有很多,其中与相关系数的计算有关的参数可以简化为:

cor(x,use=,method=)

x指矩阵或数据框;

use指定缺失数据的处理方式,可选的方式为all.obs(假设不存在缺失数据——遇到缺失数据时将报错)、everything(遇到缺失数据时,相关系数的计算结果将被设为missing)、complete.obs(行删除)以及pairwise.complete.obs(成对删除,pairwisedeletion);

method指定相关系数的类型。可选类型为pearson、spearman或kendall

states<-state.x77[,1:6]
cov(states)
cor(states)
cor(states,method = "spearman")
cor(mtcars,method = "kendall")

请注意&

  • 9
    点赞
  • 79
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值