下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容。
1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。
2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。
3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接。
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文(原文5580字)
1、相关关系
相关关系(Correlation)是指当一个变量增大时,另一个变量也随之增大或减少的现象。统计学上,这种现象被称为共变(Covariation)。根据变量之间变化的方向,相关关系可分为正相关(Positive Correlation)和负相关(Negative Correlation)。
正相关(positive correlation):当两个变量同时增加或同时减少时,称它们之间存在正相关。例如,BMI与NAFLD之间可能存在正相关关系,即随着BMI的增加,NAFLD的患病风险也可能增加。
负相关(negative correlation):当一个变量增加而另一个变量减少时,称它们之间存在负相关。例如,如果我们发现身体形态指数(ABSI)增加时,某种疾病的风险减少,则说明ABSI与该疾病之间存在负相关关系。
值得注意的是,正相关和负相关并不一定意味着一个变量的变化是引起另一个变量变化的原因。这种关系可能是由于其他潜在因素的影响。因此,相关关系并不等同于因果关系。相关分析的主要任务是对变量之间的相关关系进行定量描述,而非解释因果关系。
相关分析的主要任务是对相关关系给予定量的描述,从而帮助研究人员了解两个或多个变量之间的关系。例如:
1)疾病与风险因子之间的关系:通过研究不同肥胖指标与NAFLD之间的相关性,研究人员可以识别出哪些指标可能是NAFLD的重要风险因子,从而为临床干预提供依据。
2)生物标志物之间的关系:帮助揭示不同生物标志物之间的关系,为进一步的机制研究提供线索。
3)诊断指标之间的关系:通过分析不同诊断指标之间的相关性,可以为临床医生在诊断过程中的指标选择提供参考。
2、R语言中的相关分析方法
Pearson相关系数是最常用的一种相关系数,适用于连续变量之间的线性关系。Pearson相关系数的取值范围为-1到1,取值越接近1或-1,表示两个变量之间的线性关系越强。正值表示正相关,负值表示负相关。
Spearman相关系数是一种基于秩的相关系数,适用于非线性但单调的关系。与Pearson相关系数不同,Spearman相关系数对数据的分布没有严格要求,因此在处理非正态分布数据或存在异常值的情况下更为稳健。
Kendall相关系数也是一种基于秩的相关系数,用于测量两个变量之间的依赖关系。与Spearman相关系数类似,Kendall相关系数更适用于非线性关系或当数据中存在离群点时。Kendall相关系数通常用于样本量较小或数据有序但不连续的情况。
二、连续型变量的Pearson相关分析
Pearson(皮尔逊)相关系数是一种常用的统计指标,用于衡量两个连续型变量之间的线性相关程度。其计算出的数值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,而0表示没有线性相关性。Pearson相关系数也被称为直线相关系数或积矩相关系数。它主要适用于正态分布的数据,这意味着我们通常需要确认数据的正态性后再进行Pearson相关分析。
在统计学研究中,了解变量之间的相关性对于许多分析任务至关重要。通过相关分析,研究者可以识别变量之间的关系,并据此作出合理的推断。Pearson相关分析作为一种基础的统计工具,广泛应用于各类数据分析场景中。
1、Pearson相关系数的计算方法
下文将详细介绍如何使用R语言中的cor()
函数进行相关性分析,并探讨在双变量和多变量情境下的应用。
虽然
cor()
函数属于R的基本包,但在实际应用中,常常需要引入其他包以便进行更复杂的分析。psych
:提供了更多关于心理学统计分析的工具,包括多变量相关性检验函数corr.test()
。
我们还是使用birthwt
数据集作为示例,该数据集记录了不同母亲和其新生儿的健康数据。可以通过以下命令加载该数据集:
data(birthwt, package = "MASS")
Pearson相关系数用于度量两个连续型变量之间的线性相关性。在R中,使用cor()
函数可以轻松计算Pearson相关系数。假设我们想要研究母亲在最后一次月经期间的体重(lwt
)与新生儿出生体重(bwt
)之间的相关性。以下是具体的操作步骤:
correlation <- cor(birthwt$lwt, birthwt$bwt, method="pearson")
print(correlation)
代码里表示我们要使用Pearson相关系数。
........
欢迎订阅我们的《用 R 探索医药数据科学》专栏,在这里,你可以深度且系统地学习 R 语言。
本专栏每周至少定期更新三篇文章,直至整个专栏更新完毕。每篇文章篇幅均在 5000 字以上,质量平均分更是高达 94 分。
为使更多的忠实粉丝和同学们享受到实惠,本专栏采用折扣定价策略。随着章节的不断完成,折扣力度会逐渐减小。所以,现在正是订阅的最佳时机!不要错过这个提升自我的宝贵机会。
https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482
1章1节:数据科学的发展历程,何 R 备受青睐及我们专栏的独特之处(更新20240822)-CSDN博客
1章2节:关于人工智能、机器学习、统计学连和机器学习、R 与 ChatGPT 的探究 (更新20240814)-CSDN博客
1章3节:R 语言的产生与发展轨迹(更新2024/08/14)-CSDN博客
1章4节:数据可视化, R 语言的静态绘图和 Shiny 的交互可视化演示(更新20240814)-CSDN博客
2章1节:R和RStudio的下载和安装(Windows 和 Mac)_rst语言选择哪个镜像-CSDN博客
2章2节:RStudio 四大区应用全解,兼谈 R 的代码规范与相关文件展示_rstudio的console和terminal-CSDN博客
2章3节:RStudio的高效使用技巧,自定义RStudio环境(更新20240823)_rstudio如何使用-CSDN博客
2章4节:用RStudio做项目管理,静态图和动态图的演示,感受ggplot2的魅力-CSDN博客
2章5节:认识和安装R的扩展包,什么是模糊搜索安装,工作目录和空间的区别与设置(更新20240807 )-CSDN博客
2章6节:R的数据集读取和利用,如何高效地直接复制黏贴数据到R(更新20240807 )_r语言 复制数据集-CSDN博客
2章7节:读写RDS,CSV,TXT,Excel,SPSS、SAS、Stata、Minitab等的数据文件(更新20240807)_r语言读取rds文件-CSDN博客
2章8节:一文学会 R Markdown 的文档核心操作,切记文末有R资源的分享_r markdown文件(.rmd)-CSDN博客
2章9节:认识R与数据库连接和网络爬虫,学会在R中使用SQL语言_sql和r语言-CSDN博客
2章10节:用 R 直接下载并分析 NHANES 数据库的数据,文末示例自创便捷下载函数(更新20240807)_nhanes数据分析-CSDN博客
3章1节:数据的基本概念以及 R 中的数据结构、向量与矩阵的创建及运算-CSDN博客
.....
6章1节:定性数据的统计描述之列联表,文末有优势比计算介绍-CSDN博客
6章2节:认识birthwt数据集,EpiDisplay和Gmodels扩展包的应用-CSDN博客
6章3节:独立性检验,卡方检验,费希尔精确概率检验和Cochran-Mantel-Haenszel检验-CSDN博客
6章4节:相关关系和连续型变量的Pearson相关分析-CSDN博客
6章5节:分类型变量的Spearman相关分析,偏相关分析和相关图分析-CSDN博客
6章6节:相关图的GGally扩展包,和制表的Tableone扩展包-CSDN博客