用R语言进行连续型变量的Pearson相关分析_pearson相关性分析使用r-CSDN博客

本文链接：https://blog.csdn.net/2301_79425796/article/details/141697519

下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容。

1）栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用，填补了国内R教材中尚未广泛覆盖的部分内容。

2）专栏每篇文章都在 5000 字以上，质量平均分高达 94 分。已发表章节也会增加新的文章，已发表的文章也会更新版本，可留意专栏内容和题目信息。

3）由于每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！看全文请点击下面链接。

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文（原文5580字）

1、相关关系

相关关系（Correlation）是指当一个变量增大时，另一个变量也随之增大或减少的现象。统计学上，这种现象被称为共变（Covariation）。根据变量之间变化的方向，相关关系可分为正相关（Positive Correlation）和负相关（Negative Correlation）。

正相关（positive correlation）：当两个变量同时增加或同时减少时，称它们之间存在正相关。例如，BMI与NAFLD之间可能存在正相关关系，即随着BMI的增加，NAFLD的患病风险也可能增加。

负相关（negative correlation）：当一个变量增加而另一个变量减少时，称它们之间存在负相关。例如，如果我们发现身体形态指数（ABSI）增加时，某种疾病的风险减少，则说明ABSI与该疾病之间存在负相关关系。

值得注意的是，正相关和负相关并不一定意味着一个变量的变化是引起另一个变量变化的原因。这种关系可能是由于其他潜在因素的影响。因此，相关关系并不等同于因果关系。相关分析的主要任务是对变量之间的相关关系进行定量描述，而非解释因果关系。

相关分析的主要任务是对相关关系给予定量的描述，从而帮助研究人员了解两个或多个变量之间的关系。例如：

1）疾病与风险因子之间的关系：通过研究不同肥胖指标与NAFLD之间的相关性，研究人员可以识别出哪些指标可能是NAFLD的重要风险因子，从而为临床干预提供依据。

2）生物标志物之间的关系：帮助揭示不同生物标志物之间的关系，为进一步的机制研究提供线索。

3）诊断指标之间的关系：通过分析不同诊断指标之间的相关性，可以为临床医生在诊断过程中的指标选择提供参考。

2、R语言中的相关分析方法

Pearson相关系数是最常用的一种相关系数，适用于连续变量之间的线性关系。Pearson相关系数的取值范围为-1到1，取值越接近1或-1，表示两个变量之间的线性关系越强。正值表示正相关，负值表示负相关。

Spearman相关系数是一种基于秩的相关系数，适用于非线性但单调的关系。与Pearson相关系数不同，Spearman相关系数对数据的分布没有严格要求，因此在处理非正态分布数据或存在异常值的情况下更为稳健。

Kendall相关系数也是一种基于秩的相关系数，用于测量两个变量之间的依赖关系。与Spearman相关系数类似，Kendall相关系数更适用于非线性关系或当数据中存在离群点时。Kendall相关系数通常用于样本量较小或数据有序但不连续的情况。

二、连续型变量的Pearson相关分析

Pearson（皮尔逊）相关系数是一种常用的统计指标，用于衡量两个连续型变量之间的线性相关程度。其计算出的数值介于-1和1之间，其中1表示完全正相关，-1表示完全负相关，而0表示没有线性相关性。Pearson相关系数也被称为直线相关系数或积矩相关系数。它主要适用于正态分布的数据，这意味着我们通常需要确认数据的正态性后再进行Pearson相关分析。

在统计学研究中，了解变量之间的相关性对于许多分析任务至关重要。通过相关分析，研究者可以识别变量之间的关系，并据此作出合理的推断。Pearson相关分析作为一种基础的统计工具，广泛应用于各类数据分析场景中。

1、Pearson相关系数的计算方法

下文将详细介绍如何使用R语言中的cor()函数进行相关性分析，并探讨在双变量和多变量情境下的应用。

虽然cor()函数属于R的基本包，但在实际应用中，常常需要引入其他包以便进行更复杂的分析。psych：提供了更多关于心理学统计分析的工具，包括多变量相关性检验函数corr.test()。

我们还是使用birthwt数据集作为示例，该数据集记录了不同母亲和其新生儿的健康数据。可以通过以下命令加载该数据集：

data(birthwt, package = "MASS")

Pearson相关系数用于度量两个连续型变量之间的线性相关性。在R中，使用cor()函数可以轻松计算Pearson相关系数。假设我们想要研究母亲在最后一次月经期间的体重（lwt）与新生儿出生体重（bwt）之间的相关性。以下是具体的操作步骤：

correlation <- cor(birthwt$lwt, birthwt$bwt, method="pearson")
print(correlation)

代码里表示我们要使用Pearson相关系数。

........

欢迎订阅我们的《用 R 探索医药数据科学》专栏，在这里，你可以深度且系统地学习 R 语言。

本专栏每周至少定期更新三篇文章，直至整个专栏更新完毕。每篇文章篇幅均在 5000 字以上，质量平均分更是高达 94 分。

为使更多的忠实粉丝和同学们享受到实惠，本专栏采用折扣定价策略。随着章节的不断完成，折扣力度会逐渐减小。所以，现在正是订阅的最佳时机！不要错过这个提升自我的宝贵机会。

https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482