一期我们对T检验(非参数检验)、单/双因素方差分析及卡方检验进行了说明与实例分析。本期是Prism作图与统计的最后一期内容了。主要包括我们上提到的多元统计方法中的生存分析与相关性分析。
此部分内容还是先从统计说起,然后用实例演示分析与作图过程,此外还会介绍Prism鲜为人知的作图彩蛋。希望这个系列能让大家更准确地把握统计分析与高效制图。
一、生存分析与生存曲线绘制
1.生存分析的概念与描述(熟悉此部分统计基本概念的小伙伴请忽略)
生存分析是对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。与多因素分析不同的是:生存分析考虑了每个观测出现某一结局的时间长短。主要应用于人或动物的存活(相对于死亡),也可以是患者的病情正处于缓解状态(相对于复发或恶化),常常用追踪的方式来研究事物发展的规律。
生存分析主要采用Kaplan-Meier检验。此外Log Rank、Breslow和Tarone-Ware法均可用于检验生存分布是否相同,区别在于Log Rank适用于各时间点权重一样的比较;Breslow适用于各时间点的观察例数为权重的比较;而Tarone-Ware适合于以各时间点的观察例数的平方根为权重的比较。(用SPSS或Prism统计数据时注意区分)
PS:生存分析中还存在许多诸如起始事件、终点事件、生存时间或完全数据、不完全数据等统计学概念,请大家自行查询,下面是小编总结的一个示意图
2.生存分析实例(Kaplan Meier检验)
小编用最近看到的一篇文章(PMID: 31727683)中的图1A来进行举例说明。该图显示高miR-541与低miR-541表达肝癌病人的存活率。
接下来我们进行数据模拟和分析作图。具体步骤如下:
1)新建生存数据分析,数据输入:选择Survival表格,进入数据输入页面,输入模拟数据。在这里我们随机输入了40个数据,每组各20个(文章中多于此数据)。其中0代表live,1代表dead;X轴代表存活时间(months),A、B分别代表miR-541高表达组和低表达组。