Pearson相关系数和Spearman相关系数的区别

前言

相关系数是用以反映变量之间的相关关系程度的统计指标。其取值范围是[-1,1],当取值为0时表示不相关,取值为[-1,0)表示负相关,取值为(0,-1],表示负相关。
目前常用的两种相关性系数为皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)

简介

  1. 皮尔森相关系数评估两个连续变量之间的线性关系。在这里插入图片描述
    其中:
    在这里插入图片描述
    -1 ≤ p ≤ 1
    p接近0代表无相关性
    p接近1或-1代表强相关性

  2. 斯皮尔曼相关系数评估两个连续变量之间的单调关系。在单调关系中,变量趋于一起变化,但不一定以恒定速率变化。
    在这里插入图片描述
    其中:
    在这里插入图片描述
    N是观测值的总数量

斯皮尔曼另一种表达公式:
在这里插入图片描述
在这里插入图片描述
表示二列成对变量的等级差数。

区别

Pearson和Spearman相关系数的范围可以从-1到+1。当Pearson相关系数为+1时,意味着,当一个变量增加时,另一个变量增加一致量。这形成了一种递增的直线。在这种情况下,Spearman相关系数也是+1。
在这里插入图片描述
如果关系是一个变量在另一个变量增加时增加,但数量不一致,则Pearson相关系数为正但小于+1。在这种情况下,斯皮尔曼系数仍然等于+1。
在这里插入图片描述
当关系是随机的或不存在时,则两个相关系数几乎为零。
在这里插入图片描述
如果关系递减的直线,那么两个相关系数都是-1。
在这里插入图片描述
如果关系是一个变量在另一个变量增加时减少,但数量不一致,则Pearson相关系数为负但大于-1。在这种情况下,斯皮尔曼系数仍然等于-1
在这里插入图片描述
相关值-1或1意味着精确的线性关系,如圆的半径和圆周之间的关系。然而,相关值的实际价值在于量化不完美的关系。发现两个变量是相关的经常通知回归分析,该分析试图更多地描述这种类型的关系。

其他非线性关系
Pearson相关系数仅评估线性关系。Spearman相关系数仅评估单调关系。因此,即使相关系数为0,也可以存在有意义的关系。检查散点图以确定关系的形式。
在这里插入图片描述
该图显示了非常强的关系。Pearson系数和Spearman系数均约为0。

结论

皮尔森评估的是两个变量的线性关系,而斯皮尔曼评估的两变量的单调关系。
因此,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。

后记

至此,我们很容易就理解了皮尔森系数和斯皮尔曼系数的区别。
下面内容作为扩展知识。

  1. 相关系数的实际应用
  • 探索性数据分析
    通过计算相关系数,可以发现变量之间的关系,从而帮助我们更好地理解数据。例如,可以通过相关系数分析商品销售量与不同营销策略之间的关系。
  • 预测建模
    相关系数可以帮助我们选择和排除变量,从而建立高质量的预测模型。通过计算相关系数,可以找到与目标变量高度相关的特征变量。
  • 投资决策
    相关系数可以帮助投资者评估不同资产之间的关系,从而更好地进行资产组合的配置和风险管理。
  1. 注意事项
  • 相关系数不等于因果关系
    相关系数仅仅衡量了两个变量之间的线性关系,并不表示因果关系。因此,在解读相关系数时,要注意避免错误的因果推断。
  • 数据样本的选择
    相关系数的计算依赖于数据样本的选择,所以要确保选择具有代表性的样本。
  • 异常值的处理
    异常值可能会对相关系数的计算产生很大的影响,因此在计算相关系数之前,需要对数据进行异常值处理。
  • 88
    点赞
  • 227
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SunnyRivers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值