最近在读一篇医学信息处理相关的论文,由于在医学图像和医学信息相关的计算机处理方面还是个新手,遇到了一个生存分析预后的概念,提到KM生存曲线、COX回归模型这样的部分时读的一知半解,索性就上网学习了一下,留个记录吧。
什么是生存分析?
生存分析是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通俗来讲,“一个个体能活多久”这个问题扁鹊再世也无法回答,但通过对某一具有相同特质的群体进行数据分析,我们可以得到这类人活过一定时间的概率。这就叫做生存分析。一个人的生存时间长短与许多因素有关,研究各个因素与生存时间有无关系以及关联程度大小,这也是生存分析。推广来说,疾病的复发可以看做“健康期”的生存,机器的故障可以看做“机器”的生存,甚至下岗职工再就业可以看做“失业期”的生存,生存分析可以被推广至很多问题的分析中去。
一些相关的基本概念
起始事件:反应研究对象开始生存过程的起始特征事件。如研究某一治疗对病人生存的影响的起始时间是“开始接受该治疗”。
终点事件(死亡事件):出现研究者所关心的特定结局。如“病人因该疾病死亡”。
观察时间:从研究开始观察到研究观察结束的时间。由于研究时长无法无限延伸下去,所以研究一定会在某个特定时刻截止,而研究截止时,所有观察对象并不一定全都出现终点事件。换言之,有的研究对象在观察结束之前出现终点事件,有的直到观察结束时也没有出现终点事件,还有一些特例中途因为某些原因,如失访、意外死亡等,被迫提前结束了观察研究。
生存时间:观察到的存活时间,用符号t表示。
完全数据:从观察起点到死亡事件所经历的时间,生存时间是完整的。
截尾数据(删失值):观察时间不是由于终点事件而结束的,而是由于(1)失访(2)死于非研究因素(3)观察结束而对象仍存活以上三种原因结束的。常在截尾数据的右上角放一个“+”表示其实该对象可能活的更久。
变量:生存分析的变量有两个:生存时间t和结局变量(0-1)。其中结局变量1表示死亡事件,0表示截尾。
生存分析的主要方法
1、非参数法
这类方法的特点是,不管分布形式如何,只根据样本的顺序统计量对生存率进行估计。对于两个及多个生存率进行比较,其无效假设只是假定两组或多组生存时间分布相同,而不对其具体的分布形式和参数进行推断。log-rank乘法极限法和寿命表法都是非参数法。
2、参数法
特点是假定生存时间服从特定的参数分布,然后根据已知的分布特点对生存时间进行分析。如指数分布法、Weibull分布法、对数正态回归分布法和logistic回归法。
3、半参数法
Cox比例风险回归模型就是半参数法,具体介绍它时再说为什么叫半参数法。
生存分析研究的主要内容
1、描述生存过程
研究生存时间的分布特点,估计生存率(如1年生存率、5年生存率)及其标准误、绘制生存曲线。常用方法有乘积极限法(K-M法)和寿命表法。
2、比较生存过程
获得生存率及其标准误的估计值后,可以进行两组或多组生存曲线的比较,也就是得到了其生存过程的比较。常用方法有对数秩检验(log-rank检验)。举例说明这种对比的作用,比如针对某种疾病有两种治疗方式,对比这两种治疗下患者的生存曲线,就可以得出哪种治疗方式更有效。
3、影响生存时间的因素分析
含义顾名思义。常用的多因素生存分析方法:Cox比例风险回归模型<