生存分析是一种典型的医疗时间事件(time-event)分析场景,其主要分析序列研究中事件(如复发、死亡、治愈等)随着时间变化的统计规律,从而发现其中的敏感/危险因子。
其经典的统计学手段主要有:
(1)参数估计法:即知道其分布函数,根据数据估计其分布参数;
(2)非参数估计法:如KM估计(Kaplan-Meier);
(3)半参数估计法:如Cox比例风险模型。
在生存分析中,无论是其计算(如KM估计、Cox比例风险模型),还是其评估(如C-index)均需要注意右删失(right-censored)数据的处理。比如在KM估计中,累乘的每个时间段的分母总数均需剔除右删失数据,而在Cox比例风险模型和C-index计算中,均仅考虑比基准案例时间更长的右删失案例作为pair进行计算。
Cox比例风险模型是一种广义线性回归模型,其通过将风险函数分解为独立的时间项(即基准风险函数)和敏感因子项,从而可以忽略时间因素的影响: h ( X , t ) = h 0 ( t ) ∗ exp β X h(X,t)=h_0(t)*\exp^{\beta X} h(X,t)=h0(t)∗expβX
其目标函数为局部似然(partial likelihood)函数: L = ∏ i : E i = 1 exp h ^ θ ( x i ) ∑ j ∈ R ( T i ) exp h ^ θ ( x j ) L=\prod\limits_{i:E_i=1}\frac{\exp^{\hat h_\theta(x_i)}}{\sum\limits_{j\in R(T_i)}\exp^{\hat h_\theta(x_j)}} L=i:Ei=1∏j∈R(T