微信公众号:生信小知识
关注可了解更多的教程及单细胞知识。问题或建议,请公众号留言;
TCGA系列学习笔记(6)多因素生存分析
内容目录
前言1. 背景知识1.1 回顾1.2 生存分析种类1.3 Cox回归1.3.1 模型建立1.3.2 基本假定1.3.3 偏回归系数的意义1.3.4 参数估计与假设检验1.3.5 独立危险因素1.3.6 多因素怎么选择因素去做?2. 用R语言进行Cox回归分析2.1 载入数据2.2 单变量计算COX模型2.2.1 性别单因素结果分析2.2.2 批量单因素分析结果2.3 多因素Cox分析2.3.1 多因素分析结果2.4 可视化展示
前言
久违了~
前期笔记:
TCGA系列学习笔记(1)数据下载
TCGA系列学习笔记(2)3大主流差异分析包
TCGA系列学习笔记(3)3大差异分析结果绘图
TCGA系列学习笔记(4)差异分析结果注释
TCGA系列学习笔记(5)单因素生存分析
Reference:
一些生存分析相关基础概念:https://www.jianshu.com/p/1a8ee973b45f
关于删失问题详解:https://www.mediecogroup.com/method_topic_article_detail/300/
Kaplan-Meier曲线原理详解:http://www.360doc.com/content/17/0626/11/6175644_666623573.shtml
log-rank检验和Wilcoxon检验的区别:https://mp.weixin.qq.com/s/XpPpOpeNcIDXbd6es5VnvA
生存分析系统讲解:https://www.jianshu.com/p/559d4a966900
用R来做KM生存分析详解:https://www.bioinfo-scrounger.com/archives/647/
Cox与KM生存分析及结果解读:https://www.omicsclass.com/article/1138
强烈推荐——sthda官网R代码:http://www.sthda.com/english/wiki/cox-proportional-hazards-model
Cox回归生存分析 - 简书:https://www.jianshu.com/p/e80eb4168043
R语言实现及结果解读:https://www.omicsclass.com/article/1132
【8文合集】全面了解单因素分析和多因素分析:https://www.mediecogroup.com/method_topic_article_detail/583/?ty=methods
最后一个深度好文,主要是从统计学角度解释了单因素分析和多因素分析的结果理解,一定要好好看!再放一个链接:
https://www.mediecogroup.com/method_topic_article_detail/583/?ty=methods
要去看哟~
1. 背景知识
1.1 回顾
先简要回顾下TCGA系列学习笔记(5)单因素生存分析中的一些概念:
生存函数:S(t,X) 表示观察对象的生存时间T大于某时刻t的概率,称为生存函数,又称为累积生存率。
死亡函数:F(t,X)=1-S(t,X),当观察随访到t时刻的累积死亡率。
死亡密度函数:f(t,X)=对F(t,X)求导,某时刻t的瞬时死亡率,称为死亡密度函数。
危险率(风险)函数:h(t,X)=f(t,X)/S(t,X),某时刻 t 的瞬时死亡速率除以 t 时刻的存活人数(实际上是一个条件瞬间死亡率)。
Kaplan-Meier curves 与 logrank test tests属于单因素分析的例子,他们研究的是单一变量与生存的关系,并且Kaplan-Meier 与log-rank检验只适用于分类变量,却并不适用于数值型变量,比如我们常见的基因表达。
1.2 生存分析种类
生存分析的方法一般可以分为三类:
参数法:知道生存时间的分布模型,然后根据数据来估计模型参数,最后以分布模型来计算生存率。一般不用,因为目前认为我们不知道生存时间符合什么模型。
非参数法:不需要生存时间分布,根据样本统计量来估计生存率,常见方法Kaplan-Meier法(乘积极限法)、寿命法。而对于Kaplan-Meier法来说,其中的p值我们常用log-rank检验和Wilcoxon检验去求。
半参数法:也不需要生存时间的分布,但最终是通过模型来评估影响生存率的因素,最为常见的是Cox回归模型
备注:
单个变量的Cox回归和K-M法结果不一致时,此时我们还是应该选择Cox的结果,因为参数检验效力高于非参数检验。