Spearman相关系数的含义及适用场景

最新推荐文章于 2024-11-15 23:03:33 发布

竹篱茅舍1997

最新推荐文章于 2024-11-15 23:03:33 发布

阅读量1.6w

点赞数 7

分类专栏：应用数学生物信息学文章标签：生物信息学

原文链接：https://statisticsbyjim.com/basics/spearmans-correlation/

版权

生物信息学同时被 2 个专栏收录

17 篇文章

订阅专栏

应用数学

1 篇文章

订阅专栏

斯皮尔曼相关系数计算工具: https://geographyfieldwork.com/SpearmansRankCalculator.html
斯皮尔曼相关系数的解释：https://statisticsbyjim.com/basics/spearmans-correlation/

统计中，斯皮尔曼相关系数是皮尔逊相关系数的非参数替代方法。对遵循曲线、单调关系的数据和有序数据使用斯皮尔曼相关性。统计学家也将Spearman秩排序相关系数称为Spearman’s $\rho$ (rho)。

在这篇文章中，我们将介绍这一切的含义，以便您了解何时以及为何应该使用Spearman相关性而不是更常见的Pearson相关性(https://statisticsbyjim.com/glossary/correlation/)。

要了解更多关于一般相关性，特别是皮尔逊相关的信息，请阅读Jim关于相关性解释(https://statisticsbyjim.com/basics/correlations/)的帖子。

在这篇文章中，我绘制了数据图表。绘图对于理解变量之间的关系类型至关重要。查看变量之间的关系有助于您选择正确的分析！

1. Choosing Between Spearman’s and Pearson’s Correlation

让我们从确定何时应该使用 Pearson 相关性开始，这是更常见的形式。当您有一对变量的**连续数据并且关系呈直线**时，Pearson 是一个很好的选择。如果您的数据不满足这两个要求，是时候寻找不同的相关性度量了！

图中数据的相关性为 0.8。 Pearson 相关性对这些数据有效，因为该关系遵循一条直线。

当您有成对的连续变量并且它们之间的关系不遵循直线时，或者您有成对的有序数据时，请考虑 Spearman 的秩排序相关性(Spearman’s rank order correlation)。我将在下面检查这两个条件。

2. Why Pearson’s correlation is not Valid for Curvilinear Relationships

下图显示了为什么 Pearson’s correlation对曲线相关性是无效的。

在图片中，数据点是红线（实际上是很多很多数据点，而不是一条线！）。并且，绿线是线性拟合。您通常不会考虑 Pearson‘s correlation来对数据建模，但它使用线性拟合。因此，绿线说明了 Pearson 的相关性如何对这些数据进行建模。显然，该模型不能充分拟合数据。红色数据点和绿色模型拟合之间存在系统性偏差（即非随机偏差）。因此，您知道皮尔逊相关性对这些数据无效。

皮尔逊相关系数约为 0.92，相当高。但是，该图强调了它如何没有捕捉到整个关系。这种关系的真正强度甚至更高。在这篇文章的后面，我们将使用科学数据来完成一个类似的例子。

3. Determining when to use Spearman’s Correlation

斯皮尔曼相关(Spearman’s correlation)适用于更多类型的关系，但它也有您的数据必须满足的要求才能有效。具体来说，斯皮尔曼相关性要求您的数据是遵循单调关系的连续数据或有序数据。

当您有不遵循一条线的连续数据时，您必须确定它们是否表现出单调关系。在单调关系中，随着一个变量的增加，另一个变量趋于增加或减少，但不一定呈直线。 Spearman 相关性的这一方面允许您拟合曲线关系。但是，必须有朝特定方向变化的趋势，如下图所示。

当您有序数数据时，Spearman’s rho 是一个很好的选择，因为 Pearson’s rho是不合适的。有序数据至少具有三个类别，并且类别具有自然顺序。例如，比赛中的第一、第二和第三是顺序数据。

例如，假设同一个参赛者参加两个拼写比赛。假设您拥有两场比赛中所有参赛者的最终排名，并且想要计算比赛之间的相关性。 Spearman 的排序相关性适用于这些数据。

Spearman’s rho 也是报告李克特量表项目(Likert scale items)之间相关性的好方法！

李克特量表(Likert scale)是属评分加总式量表最常用的一种，属同一构念的这些项目是用加总方式来计分，单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成，每一陈述有"非常同意"、“同意”、“不一定”、“不同意”、"非常不同意"五种回答，分别记为5、4、3、2、1，每个被调查者的态度总分就是他对各道题的回答所得分数的加总，这一总分可说明他的态度强弱或他在这一量表上的不同状态。

参考：https://baike.baidu.com/item/%E6%9D%8E%E5%85%8B%E7%89%B9%E9%87%8F%E8%A1%A8/2282414

4. How to Calculate Spearman’s Rho

Spearman’s correlation只是对原是数据排名的Pearson‘s correlation。如果您的数据已经是有序的，则无需更改任何内容。但是，如果您的数据是连续的，则需要将连续数据转换为排名。当然，许多统计软件包会为您做预处理并简单地计算答案！

下面的示例数据集显示了两个连续变量的数据等级。对数据进行排序，值 1 表示最高，2 表示第二高，依此类推。

要确定 Spearman’s correlation，只需计算两个排名顺序列而不是原始数据的 Pearson’s correlation。我们稍后会在帖子中分析这些数据！

5. Interpreting Spearman’s Correlation Coefficient

Spearman‘s correlation范围从 -1 到 +1。系数的符号表示它是正单调关系还是负单调关系。正相关意味着随着一个变量的增加，另一个变量也趋于增加。负相关表示随着一个变量的增加，另一个变量趋于减少。接近 -1 或 +1 的值表示比接近零的值更强的关系。

6. Comparing Spearman’s and Pearson’s Coefficients

如果 Pearson 系数是完美的 -1 或 +1，则 Spearman’s correlation将是相同的完美值，除非存在重复数据值。

当两个变量没有串联变化的趋势时，Spearman’s 和 Pearson’s correlation 都将接近于零，表明没有关系。

如果存在曲线但非单调的关系，则 Spearman 和 Pearson 的相关性都将接近于零。

然而，当您有两个具有曲线单调关系的变量时，您会发现 Spearman 的相关性表明比 Pearson 的相关性更强（rho 具有更高的绝对值）。在这些情况下，曲线性质“混淆”了 Pearson，它低估了这种关系的强度。即将到来的示例说明了这一方面的实际应用。

7. Spearman’s Correlations for Likert Items and Other Ordinal Data

统计学家使用 Spearman’s rho 报告秩以及李克特量表等有序数据的相关性。Spearman 的强正相关表明一个变量的高排名往往与另一个变量的高排名一致。负相关表示一个变量的高排名经常与另一个变量的低排名一起出现。

对于使用强烈同意到强烈不同意量表的李克特项目，Spearman 的相关性表示如下：

强正系数(Strongly positive coefficients)：强烈同意值往往一起出现。
强烈负系数(Strongly negative coefficients)：对一个项目的强烈同意很可能与对另一项目的强烈不同意相吻合。
系数接近零(Near zero coefficients)：一个李克特项目的值不能预测另一个李克特项目的值。他们之间没有关系。

相关文章：Analyzing Likert Scale Data

8. Example of Spearman’s Rank Order Correlation for a Monotonic Relationship

下图显示了密度和电子迁移率之间的关系。这种关系是非线性的。事实上，我对这些数据拟合了一个非线性回归模型。但是，我们不是拟合回归模型，而是计算这两个变量之间的相关性。这些数据很适合 Spearman’s correlation，因为它们遵循单调的非线性关系。随着密度增加，电子迁移率也增加，但不是线性方式。

这些数据免费获取自NIST and pertain to the relationship between density and electron mobility。你可以自己下载Excel表格：ElectronCorrelations.

我已经在 Excel 中完成了计算，因此您可以看到它们的比较情况。 Excel’s Data Analysis ToolPak执行 Spearman‘s correlation。它没有明确计算 Spearman’s correlation。但是，通过使用 Excel 的rank()函数对两个变量进行排名，然后我可以在这些秩上使用 Pearson’s correlation来导出 Spearman’s rho。

首先，我将计算 Pearson 的相关性。

相关性非常强~+0.96。尽管是非线性的，但 Pearson‘s correlation表明这是一种强烈的正相关关系。然而，尽管相关性很高，但我们知道它低估了相关性的强度，因为它无法拟合非线性关系。

现在，让我们计算 Spearman’s rho。在 Excel 电子表格中，我使用rank()函数将两个变量的原始分数转换为秩(rank)。然后，我计算了这对排名值的相关性以产生 Spearman’s rho。

相关帖子： Using Excel to Calculate Correlation

对于电子迁移率数据，Spearman’s rho 具有近乎完美的相关性，为 +0.99。它近乎完美，因为这些数据代表了一个物理过程，而且实验室收集了极其精确的测量结果。

Spearman 的相关性是对您的统计工具箱的重要补充！它允许您计算 Pearson 无效的数据的相关性。

9. Spearman’s Rank Correlation Coefficient $R_s$ and Probability $(p)$ Value Calculator

斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient) $R_s$ 值是两组数据之间链接或关系强度的统计量度。该计算器(https://geographyfieldwork.com/SpearmansRankCalculator.html) 可以产生 $R_s$ 值, 根据精确的临界概率 $(p)$ 值的统计显著水平（参考1) 、散点图和结论。

斯皮尔曼等级(Spearman’s Rank)在地理学中有许多常见用途，包括分析沿样线的经济、社会或环境变量随距离的变化，或使用李克特量表（例如，从“强烈同意”到“强烈不同意”的 7 分制量表).

系数 (Rs) 在此计算器上使用以下通用公式计算：

答案总是在 1.0（完全正相关）和 -1.0（完全负相关）之间。 Rs 为 0 表示秩(ranks)之间没有关联。

我们可以使用以下 Rs 值指南来描述相关性的强度:

要使用统计数据证明某事，您应该假设相反，即您的数据集之间没有相关性。这称为设置原假设 (H0, the null hypothesis)。您的假设应始终以零假设 (H0， null) 和备择假设 (H1，alternative ) 的形式陈述。

从计算器获得的 p（或概率）值是衡量任何观察到的相关性是偶然的可能性或概率的度量。 P 值介于 0 (0%) 和 1 (100%) 之间。接近 1 的 p 值表明除了偶然之外没有相关性，并且您的零假设假设是正确的。如果您的 p 值接近 0，则观察到的相关性不太可能是偶然的，并且您的原假设很可能是错误的。在这种情况下，您必须接受备择 (H1) 假设，即您的数据集之间存在相关性。下面显示了解释 p 值的指南。

在地理学中，我们通常使用 5% 的强概率水平 (p = 0.05)。高于此水平，您的零假设被认为是正确的。处于或低于该水平，您的零假设错误的可能性至少为 95%，数据具有统计显着性并且它们显示出真实的关联。在这种情况下，您必须拒绝原假设 (H0) 并接受备择假设 (H1)。换句话说，5% (p = 0.05) 的概率水平表示统计显着性，每 100 名研究人员中至少有 95 人进行相同的调查，预计会从他们的数据分析中发现类似的统计显着相关性。

对于大样本量，非常弱的相关性 Rs 值可能具有显着的 p 值。在这种情况下，弱相关性不是偶然因素造成的，而是因为对于大样本，低相关性在统计上是“真实的”或代表总体。另一方面，小样本量可以与低 p 值产生非常强的相关性，这在统计上不显着，这意味着结果完全是偶然的。

您的最小样本量应至少为 10。低于该点，Rs 值不可靠。统计学中的一个简单经验法则是，观察的绝对最小数量应该至少是相关变量数量的五倍。

始终将您的数据绘制在散点图上并确定趋势线以获得相关强度的视觉感受。