数学笔记：pearson correlation coefficient VS spearman correlation coefficient

UQI-LIUWJ

已于 2022-04-12 21:46:12 修改

阅读量1.1k

点赞数

文章标签：数学

于 2022-04-12 21:43:21 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/124134613

版权

相关性是衡量两个变量间线性关系强度的统计指标，但并不一定表示因果关系。Pearson相关系数衡量线性相关性，取值在-1到1之间，而Spearman相关系数关注变量排名间的单调关系。Spearman适用于非线性但单调的关系。在数据分析中，选择合适的相关系数能更准确地捕捉变量间的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 correlation 相关性

相关性是两个变量线性相关的程度。这是双变量数据分析的重要步骤。

相关性并不意味着因果关系！

让我们通过两个例子来了解它的实际含义。

夏季，冰淇淋的消费量会增加。
——>气候（或者说是季节）和冰淇淋的销售额之间存在很强的相关性。
在这个特殊的例子中，我们看到存在因果关系，因为极端的夏季确实推动了冰淇淋的销售。
冰淇淋的销售或许与鲨鱼袭击有很强的相关性。
——>现在我们可以在这里非常清楚地看到，鲨鱼袭击绝对不是因为冰淇淋造成的。所以，这里没有因果关系。

1.1 相关系数

相关系数是对两个变量的相关性强度的统计量度。值范围在 -1.0 和 1.0 之间。

-1.0 的相关性表示完全的负相关，
1.0 的相关性表示完全的正相关。
0.0 的相关性表明两个变量的之间没有线性关系。

2 Pearson Correlation Coefficient

NTU 课程笔记： CV6422 regression_UQI-LIUWJ的博客-CSDN博客

在统计学中，皮尔逊相关系数也称为皮尔逊 r 或双变量相关性，是衡量两个变量 X 和 Y 之间线性相关性的统计量。它的值介于 +1 和 -1 之间。 +1 的值是总正线性相关，0 是非线性相关，-1 是总负线性相关。

下图是皮尔逊相关系数在变量之间相关性方向&强度不同时的不同情况

3 Spearman Correlation Coefficient

NTU 课程笔记：Nonparametric statistics_UQI-LIUWJ的博客-CSDN博客

在统计学中， Spearman相关系数或 Spearman ρ 是rank相关性的非参数度量（两个变量的rank之间的统计相关性）。它评估使用单调函数可以描述两个变量之间的关系的程度。

我们不难发现二者的区别，spearman这里强调的时“单调”，也就是增幅不同也不要紧，只要两个同增同减即可（比如下面的左图和中图）

4 二者的区别

两个相关系数之间的根本区别在于，Pearson系数适用于两个变量之间的线性关系，而Spearman系数适用于单调关系。

因此，如果我们觉得散点图在视觉上表明“可能是单调的，可能是线性的”关系，我们最好的选择是应用 Spearman 而不是 Pearson。即使数据证明是完全线性的，切换到 Spearman 也不会造成任何伤害。但是，如果它不是完全线性的并且我们使用 Pearson 系数，那么我们将错过 Spearman 可以捕获的“单调”信息。

下面举几个例子，就能很好地说明了：