这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!

本文深入解读医疗研究中相关系数的正确使用,探讨Pearson与Spearman的区别,通过实例解析如何选择适用的系数,并提供实例分析与图表说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

欢迎关注"R语言和统计"~~

小编前几天阅读了一篇论文,名为“A guide to appropriate use of correlation coefficient in medical research” [1],写的简单易懂,并且在医学研究的实践中非常有参考价值,因此决定分享给大家。

虽然相关(Correlation)容易计算和解释,但是它的误用在研究者中也非常的普遍,有些统计学家甚至认为:相关的概念一开始就没有被提出可能会更好 [2] e8bb27c892ea6561d342090e2a0b4227.png

所以,在最开始,先了解一下到底什么是相关。

相关的定义

在统计学中,相关是一种用于评估两个连续变量之间的线性关系的方法 [2]。

相关系数(Correlation coefficient)可用于评估两个连续变量之间的线性关系的强度,它可以取值 -1 到 +1 之间。

假如相关系数为0,表示两个连续变量之间不存在线性关系;相关系数为 -1或者 +1,表示两者存在完美的线性关系。两者的线性关系越强,数值将会越往 -1 或 + 1 汇聚。

如果相关系数为负数,称为负相关,即当一个变量的数值增加时,另外一个变量的数值将会倾向于下降。而相关系数为正数,称为正相关,即当一个变量的数值增加时,另外一个变量的数值也会倾向于增加。

值得注意的是,如果两个变量之间的关系是非线性,根据统计学的定义,我们不能称它们是相关!

举个例子,假设在线性代数中两个变量之间的关系是:y = 0.5*x^3,可以在R中将其作图: 

# 创建数据
x <- -10:10
y <- 0.5*x^3

# 作图
plot(x, y, type = "l")
title(main = "y = 0.5*x^3")

60293c3871a6759136d0fcd3ad0dd403.png

如上图:在数学上,x和y当然存在某种联系(y = 0.5*x^3);但是在统计学中,将x和y称为相关就不是非常的恰当,因为统计的相关指的是线性关系

相关系数的类型

主要有两种相关系数:Pearson相关系数和Spearman相关系数[如果觉得不够,可以查看往期文章:涨知识!15种相关分析算法,总有一款适合你!]。 

到底该如何选择相应的方法? 

这取决于所要研究的变量,如果两个变量都是正态分布,选择Pearson相关;如果其中一个或两个不是正态分布,选择Spearman相关。 

Pearson相关系数的公式如下:

4411f50311b77b488a21f4eb81d95c29.png

Spearman相关系数的公式如下:

e4d0d262fe14e91484d1253e0d10dce3.png

注:di 指的是x和y间排序的差别。

相关系数和散点图

论文作者首先创建了两组符合正态分布的数据,使用Pearson相关(相关系数分别为0.2, 0.5, 0.8, -0.8),并且制作了对应的散点图,如下: 

Pearson相关系数为 0.2时: 

108730bf82849154402a495066093654.png

图片来源:[1]的Figure 1

Pearson相关系数为 0.5时: 

abac3f79842089e1e50d58c24a56e53c.png

图片来源:[1]的Figure 2

Pearson相关系数为 0.8时: 

09b1b78f59a8fa3d3a468b750d06a79a.png

图片来源:[1]的Figure 3

Pearson相关系数为 -0.8时: 

4ba78c4e3c0fb31418e7d8c407bc26ef.png

图片来源:[1]的Figure 4

上述四张图片可以帮助我们了解不同相关系数所对应散点图的样子,有助于在未来仅根据散点图的模样提前大致推测它们的相关系数。

从上述四张图片可知,相关系数越大(绝对值),两个变量之间的线性关系越明显。

实例解析

下面用一个实例,用于解释两种相关系数在实际应用上的差别。

作者使用了产前门诊的数据,共包含了 750 例孕妇,选取了其中两个变量:血液中血红蛋白浓度(呈正态分布)和产次(呈偏态分布),散点图如下: 

ece0abf6b4139da906b613ae677b817b.png

图片来源:[1]的Figure 5

因为产次(parity)为偏态分布,所以在这个例子中,选择Spearman相关会更加合适,计算所得相关系数为 0.3。 

如果使用Pearson相关,它的相关系数为 0.2。

根据下表,它们的相关系数将会得出截然不同的结论: 

f1950d69048b21b5adf2ab7acddbf75f.png

a02be8b86e4d3bf7aab47216488b03a9.png

表格来源:[1]的Table 1

如上表所示,如果根据Spearman相关系数为 0.3,可以认为变量间的相关为弱正相关。而如果根据Pearson相关系数为 0.2,它们间的相关是可以忽略的!所以,不同的方法可能会造成完全不同的结论5c12ebcdd0c87d79a8eb918894535fbe.png

好啦,今天的内容就到这里。

如果有帮助,记得分享给需要的人30670fc4bff7d46e351d3fc285054b13.png

参考文献

[1]. M.M Mukaka, A guide to appropriate use of Correlation coefficient in medical research, Malawi Medical Journal; 24(3): 69-71 September 2012

[2]. Altman DG. Practical Statistics for Medical Research. Chapman & Hall/CRC

89ab40847434912682a6b2bdd762c5a2.png

▌本文由R语言和统计首发,如需转载请联系我们

▌编辑:June

▌我们的梦想是让R语言和统计变得简单!

往期精品(点击图片直达文字对应教程)

a5702fe4ba170689f2abf34ab129f60f.png

83464f0581c1e0a931649494e66044cc.png

6d9eac0b858a67470d17f00c2fc993ac.png

95d3df22c8f898b392ac79a8664e7d0e.png

6afe4863f8b09d184bfd72860eb7cc46.png

e50e5bf9e50149ab9e662f9b51b3f81f.png

ab55cc5cfb924d005cffd76b9531a52c.png

ef14eeb9c72e364962fd056a8e098990.png

f6fb81154562ce534e46bb0597f19db3.png

9826906ce6988b875a89e7798f8f59dd.png

e7db0de8dae2ae01832df31ad33cc6bb.png

87b51ace3f6910b2174aceea47dbe573.png

e99e4d4ade267b2a1ecf3e5a7995c938.png

5ad36f1182df1d10a987b2925dd24e82.png

89145f7a74e2c797481cfd52f0043af9.png

8ee855cc99b8316ee2b84f1945f91a61.png

72b233c9498af0fab655df33cb42df0d.png

7106abbec96664f80b1b0535a2c0d5be.png

fa8ff3ae2e3f3437b0655f11fb8ec1db.png

d815348c6d793a66944d9002a967b9f6.png

e4a79fbf6bd23343c17d7ca5b0a99748.png

767f34854ed31f358a5f7a33a438c565.png

5197b682804ac39f7df8afbeab56cf6a.png

96a6d0da864f40f5e23222360069962c.png

25aca016c9d57a5e984c3dad6afd414e.png

86e057d86856fca96c8a4a26f1e3266d.png

2b49a425a711c268c49f5965e4a24571.png

4b4f09bf5e9226cc06c229d26a1bea99.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

e31786108edef2037c0e8f2a978ee44f.png

6128a4d6ae7a82aef3fc4184f8717d1b.png

f47d99e6ea4f59f16da2c778d21169f9.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值