R计算两列数据的相关系数_相关系数简介及R计算

825ece0fb722158d874dec72facdb8b5.gif 变量间Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、Biserial相关系数简介及R计算 e3c2ddfaf560857c48add1653870ea50.gif 对于给定数据集中,变量之间的关联程度以及关系的方向,常通过相关系数衡量。 就关系的强度而言,相关系数的值在 +1 和 -1 之间变化,值 ±1 表示变量之间存在完美关联程度,即完全相关时绝对值为 1 ;随着相关系数值趋于 0 ,意味着变量之间的关系将减弱,完全不相关时为 0 。关系的方向由系数的符号表示; + 号表示正向关系, - 号表示负向关系。

142411f33fa234ad8963b181bec4ebe1.png

图示两个变量之间的相关系数,正相关意味着图表从左到右具有向上的斜率:随着x值的增加,y值会变大;负相关性意味着图表从左到右具有向下的斜率:随着x值的增加,y值会变小;零(不相关)表示y不随x的变化而变化。        

常见的变量间相关系数简介

首先简介常见的用于描述变量间相关性的系数,包括Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、(Point-)Biserial等。  

Pearson相关(连续变量,数值相关)

Pearson相关系数(皮尔森相关)是使用最广泛的相关性统计量,用于测量两组连续变量之间的线性关联程度。

Pearson相关系数计算如下:

01d96d45c6cfafadaa2eb1da7f1c74a4.png

rxy,变量x和y的Pearson相关系数;

n,观测对象的数量;

xi,x的第i个观测值;

yi,y的第i个观测值。

Pearson相关系数应用于连续变量,假定两组变量均为正态分布、存在线性关系且等方差。线性关系假设两个变量之间是线性响应的,等方差假设数据在回归线上均匀分布。

Spearman秩相关(连续变量,秩相关)

Spearman秩相关系数(斯皮尔曼等级相关)是一种非参数统计量,其值与两组相关变量的具体值无关,而仅仅与其值之间的大小关系有关。Spearman秩相关依据两列成对等级的各对等级数之差进行计算,所以又称为“等级差数法”。当变量在至少是有序的尺度上测量时,它是合适的相关分析方法。

Spearman秩相关系数计算如下:

f7296b7fd4775b2905ba5de3f307bd7a.png

ρ,Spearman秩相关系数;

di,对应变量的秩之差,即两个变量分别排序后成对的变量位置(等级)差;

n,观测对象的数量。

Spearman秩相关同样应用于连续变量,与Pearson相关相比Spearman秩相关不要求变量的正态性和等方差假设,且对异常值的敏感度较低(该方法基于变量的排序,因此异常值的秩次通常不会有明显变化),因此适用范围通常更广。但方法较为保守,统计效能较Pearson相关系数低,容易忽略一些不太强的线性关系。

此外,Spearman秩相关要求数据必须至少是有序的,一个变量的得分必须与另一个变量单调相关(monotonically related)。 

Kendall相关(分类变量,秩相关)

Kendall 相关系数则用于计算分类变量间的秩相关,用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。

考虑两组变量,x和y,它们各自的观测值数量均为n,则x与y观测值可能配对的总数为n(n-1)/ 2。由于x和y为分类变量,需要首先根据类别表示的重要度人工赋值。随后考察x和y的关系对,如果xi

  • 1
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值