1 生存分析基本概念
2 寿命表分析
寿命表分析(Life Table Analysis)是生存分析中的一种方法,用于估计事件发生的时间分布,特别是当数据包含删失数据时。寿命表分析主要通过将生存时间划分为若干时间段,计算每个时间段的生存率和风险率,来分析个体在某一时间段内的生存情况。它与Kaplan-Meier分析类似,但寿命表方法通常使用固定的时间间隔。
E
(
D
x
)
=
∑
i
=
1
n
x
s
i
−
r
i
q
x
+
r
i
=
d
x
E({D_x}) = \sum\limits_{i = 1}^{{n_x}} {{s_i} - {r_i}{q_{x + {r_i}}} = {d_x}}
E(Dx)=i=1∑nxsi−riqx+ri=dx
n
x
{n_x}
nx在
x
x
x岁时候进入研究的样本个数;
r
i
{r_i}
ri第
i
i
i个样本在
x
x
x岁时的进入时间
(
0
⩽
r
i
<
1
)
(0 \leqslant {r_i} < 1)
(0⩽ri<1);
s
i
{s_i}
si第
i
i
i个样本在
x
x
x岁时的退出时间
(
0
⩽
s
i
<
1
)
(0 \leqslant {s_i} < 1)
(0⩽si<1);
q
x
+
r
i
{q_{x + {r_i}}}
qx+ri在
x
+
r
i
x + {r_i}
x+ri岁进入研究的人再活
s
i
−
r
i
{s_i} - {r_i}
si−ri岁后死亡的概率;
s
i
−
r
i
{s_i} - {r_i}
si−ri第
i
i
i个样品在
x
x
x岁时的暴露;
d
x
{d_x}
dx样本在
[
x
,
x
+
1
)
[x,x + 1)
[x,x+1)岁间死亡的个体数量;
D
x
{D_x}
Dx总体在
[
x
,
x
+
1
)
[x,x + 1)
[x,x+1)岁间死亡的个体数量。
由于:
s
i
−
r
i
q
x
+
r
i
≈
(
s
i
−
r
i
)
q
x
{s_i} - {r_i}{q_{x + {r_i}}} \approx ({s_i} - {r_i}){q_x}
si−riqx+ri≈(si−ri)qx
所以:
E
(
D
x
)
=
q
x
∑
i
=
1
n
x
(
s
i
−
r
i
)
=
d
x
⇒
q
^
x
=
d
x
∑
i
=
1
n
x
(
s
i
−
r
i
)
E({D_x}) = {q_x}\sum\limits_{i = 1}^{{n_x}} {({s_i} - {r_i}) = {d_x} \Rightarrow } {\hat q_x} = \frac{{{d_x}}}{{\sum\limits_{i = 1}^{{n_x}} {({s_i} - {r_i})} }}
E(Dx)=qxi=1∑nx(si−ri)=dx⇒q^x=i=1∑nx(si−ri)dx
q
x
{q_x}
qx在
x
x
x岁存活的人在
[
x
,
x
+
1
)
[x,x + 1)
[x,x+1)岁死亡的概率,
q
^
x
{\hat q_x}
q^x为其近似值。
3 Kaplan-Meier分析
Kaplan-Meier分析是一种用于估计生存函数的非参数方法,特别适合于生存数据中含有删失数据的情况。与寿命表分析相比,Kaplan-Meier分析不需要将时间划分为固定间隔,而是基于事件发生的时间点进行估计,因此可以更准确地估计生存率。
积累生存分析估计值:
V
^
a
r
[
S
^
(
t
)
]
=
[
S
^
(
t
)
]
2
∑
t
i
⩽
1
d
i
y
i
(
y
i
−
d
i
)
\hat Var[\hat S(t)] = {[\hat S(t)]^2}\sum\limits_{{t_i} \leqslant 1} {\frac{{{d_i}}}{{{y_i}({y_i} - {d_i})}}}
V^ar[S^(t)]=[S^(t)]2ti⩽1∑yi(yi−di)di
t
i
{t_i}
ti第
i
i
i个事件发生时刻;
d
i
{d_i}
di在时刻
t
i
{t_i}
ti发生事件的个体数;
y
i
{y_i}
yi在时刻
t
i
{t_i}
ti面临分险的个体数;
生存分析
p
p
p分位点
x
p
{x_p}
xp:
x
p
=
i
n
f
{
t
:
S
(
t
)
⩽
1
−
p
}
{x_p} = inf\left\{ {t:S(t) \leqslant 1 - p} \right\}
xp=inf{t:S(t)⩽1−p}
4 Cox回归分析
Cox回归分析,也称为Cox比例风险模型,是一种生存分析方法,用于评估多个协变量(独立变量)对生存时间(因变量)的影响。它可以处理删失数据,即那些在研究结束时仍未发生事件(如死亡、复发、故障等)的个体。
Cox模型的核心思想:Cox模型的目标是估计风险函数(Hazard Function),即某个个体在某时刻面临事件(如死亡、复发、设备故障)发生的风险概率,条件是该个体已经存活到该时刻。风险函数可以理解为单位时间内事件发生的速率。
Cox比例风险模型的风险函数形式如下:
h
(
t
,
x
)
=
h
0
(
t
)
e
β
1
x
1
+
β
2
x
2
+
⋯
+
β
m
x
m
h(t,x) = {h_0}(t){e^{{\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _m}{x_m}}}
h(t,x)=h0(t)eβ1x1+β2x2+⋯+βmxm
ln
(
h
(
t
,
x
)
h
0
(
t
)
)
=
β
1
x
1
+
β
2
x
2
+
⋯
+
β
m
x
m
\ln \left( {\frac{{h(t,x)}}{{{h_0}(t)}}} \right) = {\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _m}{x_m}
ln(h0(t)h(t,x))=β1x1+β2x2+⋯+βmxm
x
1
+
x
2
+
⋯
+
x
m
{x_1} + {x_2} + \cdots + {x_m}
x1+x2+⋯+xm危险因素(协变量);
h
0
(
t
)
{h_0}(t)
h0(t)基准风险函数,表示在没有任何协变量影响下的风险率;
h
(
t
,
x
)
h(t,x)
h(t,x)是给定协变量
X
X
X的个体在时间
t
t
t的风险函数。
比例风险假设要求,不同个体的风险函数之比在任何时间点都是常数,也就是说,协变量的效应不会随时间而变化。
Cox模型的比例风险假设:
h
{
(
t
)
,
(
x
1
,
x
2
,
⋯
,
x
m
)
}
h
{
(
t
)
,
(
x
1
∗
,
x
2
∗
,
⋯
,
x
m
∗
)
}
=
e
β
1
x
1
+
β
2
x
2
+
⋯
+
β
m
x
m
e
β
1
x
1
∗
+
β
2
x
2
∗
+
⋯
+
β
m
x
m
∗
\frac{{h\left\{ {(t),({x_1},{x_2}, \cdots ,{x_m})} \right\}}}{{h\left\{ {(t),(x_1^*,x_2^*, \cdots ,x_m^*)} \right\}}} = \frac{{{e^{{\beta _1}{x_1} + {\beta _2}{x_2} + \cdots + {\beta _m}{x_m}}}}}{{{e^{{\beta _1}x_1^* + {\beta _2}x_2^* + \cdots + {\beta _m}x_m^*}}}}
h{(t),(x1∗,x2∗,⋯,xm∗)}h{(t),(x1,x2,⋯,xm)}=eβ1x1∗+β2x2∗+⋯+βmxm∗eβ1x1+β2x2+⋯+βmxm