生存分析（1）

最新推荐文章于 2024-05-07 08:00:00 发布

hukun1995

最新推荐文章于 2024-05-07 08:00:00 发布

阅读量2.6w

点赞数 25

分类专栏：算法与模型文章标签：生存分析

本文链接：https://blog.csdn.net/xiaohukun/article/details/77679134

版权

算法与模型专栏收录该内容

7 篇文章 10 订阅

订阅专栏

一、基本概念和名词解释

1.生存分析（survival analysis）

是研究生存现象和响应时间数据及其统计规律的一门学科。
是将事件的结果（终点事件）和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析与其他多因素分析最大的区别，就是生存分析考虑了观测结果出现的时间长短。

2.生存时间（survival time, failure time）

终点事件与起始事件之间的时间间隔。
终点事件：研究者所关系的特定结局。
起始事件：反应研究对象生存过程的起始特征的事件。

终点事件与起始事件是相对而言的，都是由特定的研究目的所决定的，是整个研究过程的标尺，需要在设计时明确规定，并在研究期间严格遵守，不能随意改变。

生存时间举例

起始事件		终点事件
服药	—–>	痊愈
手术切除	—–>	死亡
染毒	—–>	死亡
化疗	—–>	缓解
缓解	—–>	复发

3.生存时间的类型（survival time, failure time）

(1) 完全（complete）数据
从起点至死亡（死于所研究疾病）所经历的时间
(2) 删失（censored）数据
指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生，因而得到的数据。

可见删失数据得到的时间是并不准确的

删失原因：失访、死于其它疾病、观察结束时病人尚存活

删失分类：

左删失（left censored）
只知道实际生存时间比观察到的要短
右删失（right censored）
只知道实际生存时间比观察到的要长
区间删失（interval censored）
只知道实际生存时间在某个区间范围内

生存时间度量单位可以是年、月、日、小时等，常用符号t表示，右删失数据右上角标记“+”，其他删失数据标记“？”。

这里写图片描述

注意：删失数据不等于截尾数据

截尾数据（Truncation）
只有“左截尾”和“右截尾”两种。

左截尾：数据都大于某个值
右截尾：数据都小于某个值

截尾数据的产生，往往是因为实验设计的要求使得数据天然具有上界或者下界。

如一个实验研究退休职工的生存情况，那么显然这些数据都是左截尾的，因为所有个体的年龄都大于退休年龄（如t≥60）

截尾与删失的区别

产生原因不同
删失数据的产生往往是随机的，不可事先预知的，如失访等
截尾数据在实验设计时往往就可以提前预知
“左右”意义不同
左截尾是数据大于某个值，左删失是数据小于某个值
右截尾是数据小于某个值，右删失是数据大于某个值
描述级别不同
删失数据体现的是个体数据的特点，如某个患者的数据是删失的
截尾数据体现的实验中样本整体的特点，如上面说的都大于60岁

二、统计概念和名词解释

申明：生存时间的分布一般不呈现正态分布

1.条件生存概率（conditional probability of survival）

表示某时段开始存活的个体，到该时段结束时仍存活的可能性。

年条件生存概率表示年初尚存人口存活满一年的可能性。

p = 活 满 一 年 例 数 年 初 观 察 （ 存 活 ） 例 数

$p = \frac{活满一年例数}{年初观察（存活）例数}$

2.生存率（survival rate, survival function）

观察对象经历t个单位时间段后仍存活的可能性，如

三 年 生 存 率 = 活 满 三 年 例 数 期 初 观 察 例 数

$三年生存率 = \frac{活满三年例数}{期初观察例数}$

如期初观察例数为100，术后1、2、3年死亡总数分别为10、20、30，无截尾数据，试求各年条件生存概率及逐年生存率。

这里写图片描述

可以看出，条件概率是单个时间段的结果，而生存率实质上是条件概率的累积结果。例如，3年生存率是第一年、第二年、第三年都存活的可能性。
即 $第三年存活=第三年条件存活*第二年条件存活*第一年条件存活$

可见生存率的计算根据原理分为：
直接法：直接按概率定义计算
概率乘法定理：用各年条件生存概率相乘

3.描述函数（conditional probability of survival）

生存函数S(t)：
观察对象的生存时间T大于某时刻t的概率称为生存函数(survival function)。

S (t) = t 时 刻 尚 存 活 的 例 数 期 初 观 察 例 数

$S(t)= \frac{t时刻尚存活的例数}{期初观察例数}$

死亡函数S(t)：
观察对象的生存时间T不大于某时刻t的概率称为死亡函数(failure function)。

F (t) = 1 - S (t)

$F(t)= 1-S(t)$

死亡密度函数f(t)：
观察对象在某时刻t的瞬时死亡率为死亡密度函数(failure density)

h (t) = 观 察 对 象 在 [ t , Δ t ] 时 间 内 的 死 亡 人 数 期 初 观 察 例 数 * Δ t = Δ 死 亡 率 Δ t = F' (t)

$h(t)= \frac{观察对象在[t,\Delta t]时间内的死亡人数}{期初观察例数*\Delta t}=\frac{\Delta 死亡率}{\Delta t}={F'(t)}$

风险函数h(t)：
生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数(hazard function)
可以理解为一种条件死亡密度

S (t) = f ( t ) S ( t ) = 观 察 对 象 在 [ t , Δ t ] 时 间 内 的 死 亡 人 数 t 时 刻 尚 存 人 数 * Δ t

$S(t)= \frac{f(t)}{S(t)}=\frac{观察对象在[t,\Delta t]时间内的死亡人数}{t时刻尚存人数*\Delta t}$

4.生存曲线（survival curve）

以观察（随访）时间为横轴，以生存率为纵轴，将各个时间点所对应的生存率连接在一起的曲线图。
生存率是一条下降的曲线，分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期，陡峭的生存曲线表示低生存率或较短生存期。

某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间（周）如下：
甲疗法组 1 3 3 7 10 15 15 23 30
乙疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+

其生存曲线如下：
这里写图片描述

生存率的具体算法和曲线的画法,在生存分析（2）中将详细介绍

5.中位生存期（median survival time）

又称半数生存期，表示恰有50%的个体尚存活的时间。
中位生存期越长，表示疾病的预后越好，中位生存期越短，预后越差。
估计中位生存期常用图解法或线性内插法。

注：
预后：指预测疾病的可能病程和结局
线性内插法：根据一组已知的自变量及其对应的函数值，利用等比关系求解未知函数值的方法。

三、生存资料统计学处理

（一）设计

目的：

专业目的：根据专业领域所需而定
统计学目的：
1）估计：根据样本生存资料估计总体生存率及其它有关指标（如中位生存期等），如根据脑瘤患者治疗后的生存时间资料，估计不同时间的生存率、生存曲线以及中位生存期等。

2）比较：对不同处理组生存率进行比较，如比较不同疗法治疗脑瘤的生存率，以了解哪种治疗方案较优。

3）影响因素分析：目的是为了探索和了解影响生存时间长短的因素，或平衡某些因素影响后，研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后，应了解影响病人预后的主要因素，包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。

4）预测：具有不同因素水平的个体生存预测，如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人t年（月）生存率。

方法：

前瞻性队列研究：
前瞻性队列研究是队列研究的基本形式。研究对象的分组是根据研究对象现时的暴露状况而定的，此时研究的结果还没有出现，需要前瞻性观察一段时间才能得到。
回顾性队列研究
回顾性队列研究的研究对象是根据其在过去某时点的特征或暴露情况而入选并分组的，然后从已有的记录中追溯从那时开始到其后某一时点或直到研究当时为止这一期间内，每一成员的死亡或发病情况。

回顾性队列研究实际做的是在现在调查过去的既成事实，这时暴露与疾病或死亡均已成事实，而前瞻性队列研究的随访则是查寻在过程中新出现的病例或死亡及其死因。