统计学中不同相关系数的比较

相关系数的区别

不同相关系数的比较
1. Pearson 相关系数
  • 定义: 皮尔逊相关系数衡量的是两个变量之间的线性相关程度。其值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有线性相关。
  • 使用场景: 当两个变量的关系接近线性,并且数据是连续且大致符合正态分布时,使用皮尔逊相关系数最为合适。
  • 公式:
    r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r=\frac{\sum (x_{i} - \bar{x}) (y_{i} - \bar{y}) }{\sqrt{\sum(x_{i}-\bar{x})^{2} \sum(y_{i}-\bar{y})^{2}}} r=(xixˉ)2(yiyˉ)2 (xixˉ)(yiyˉ)
2. Kendall 秩相关系数
  • 定义: 肯德尔秩相关系数(Kendall’s tau)是一种用于测量两个变量之间序数关联性的非参数统计方法。它基于两个变量的配对观测值之间的一致性和不一致性。

  • 使用场景: 当你的数据是序数的,或者数据含有许多重复值,或者样本量较小时,肯德尔秩相关系数是一个更好的选择。

  • 公式:
    τ = 2 n ( n − 1 ) ∑ sign ( x i − x j ) sign ( y i − y j ) \tau = \frac{2}{n(n-1)} \sum \text{sign}(x_i - x_j) \text{sign}(y_i - y_j) τ=n(n1)2sign(xixj)sign(yiyj)

    其中,sign函数是符号函数,n是数据点的数量。

3. Spearman 秩相关系数
  • 定义: 斯皮尔曼秩相关系数(Spearman’s rho)也是一种非参数的秩相关统计方法,它衡量的是两个变量的等级之间的单调关系。

  • 使用场景: 当数据不满足正态分布、存在异常值或者非线性关系时,斯皮尔曼秩相关系数是一个更合适的选择。

  • 公式:
    ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} ρ=1n(n21)6di2

    其中, d i d_{i} di是两个变量的秩次之差, n n n是数据点的数量。

总结
  • Pearson 是对线性关系的度量,对于非线性关系和非正态分布的数据可能不是很敏感。
  • KendallSpearman 是非参数方法,它们对于非正态分布的数据和非线性关系更为稳健,但通常具有较低的统计效能。
  • Spearman 通常对异常值更为敏感,而 Kendall 在处理小样本数据或有许多重复值的数据时更为可靠。
  • 10
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值