指数分布
当一个随机变量 X X X ~ e x p ( λ ) exp(\lambda) exp(λ)时,它的密度函数为:
f ( x ) = { λ e − λ x , ( x ≥ 0 ) 0 , ( x < 0 ) . f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},~~~(x\geq0)\\ 0,~~~~~~~(x<0) \end{aligned} \right.. f(x)={λe−λx, (x≥0)0, (x<0).
1 泊松分布
前面介绍伽马分布的时候介绍过,伽马分布族是泊松分布中参数与指数分布中参数的共轭先验分布族,同时,指数分布是伽马分布的特例。其实,指数分布与泊松分布有着密不可分的联系,这也是通常把指数分布与泊松分布中的参数一般都计作 λ \lambda λ的原因。
随机变量
ξ
\xi
ξ服从参数为
λ
\lambda
λ的
P
o
i
s
s
o
n
Poisson
Poisson分布,即
ξ
\xi
ξ~
P
(
λ
)
P(\lambda)
P(λ),那么
ξ
\xi
ξ的分布列为:
P
(
ξ
=
k
)
=
e
−
λ
λ
k
k
!
(
λ
>
0
)
.
P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}(\lambda>0).
P(ξ=k)=k!e−λλk(λ>0).
服从指数分布的随机变量
X
X
X是连续型随机变量;服从泊松分布的随机变量
ξ
\xi
ξ是离散型随机变量。
ξ
\xi
ξ的实际意义可以是单位时间内事件发生的个数(一种计数),即
P
(
ξ
=
k
)
=
e
−
λ
λ
k
k
!
P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}
P(ξ=k)=k!e−λλk意味着: 单位时间内,特定事件发生的次数为
k
k
k的概率为
e
−
λ
λ
k
k
!
\frac{e^{-\lambda}\lambda^k}{k!}
k!e−λλk.
简单使用级数,可以求出:
E
(
ξ
)
=
∑
k
=
0
∞
k
e
−
λ
λ
k
k
!
=
λ
E(\xi)=\sum\limits_{k=0}^{\infty}k\frac{e^{-\lambda}\lambda^k}{k!}=\lambda
E(ξ)=k=0∑∞kk!e−λλk=λ
即在服从
P
(
λ
)
P(\lambda)
P(λ)的
ξ
\xi
ξ 的密度函数表达式中,参数
λ
\lambda
λ的意义是,单位时间内发生特定事件次数的期望值。可以将在时间 t 内发生事件的次数的随机变量可记为
N
(
t
)
N(t)
N(t), 则有
N
(
t
)
∼
P
(
λ
t
)
N(t)\sim P(\lambda t)
N(t)∼P(λt),即:
P
(
N
(
t
)
=
k
)
=
e
−
λ
t
(
λ
t
)
k
k
!
(
λ
>
0
)
.
P(N(t)=k)=\frac{e^{-\lambda t}(\lambda t)^k}{k!}(\lambda>0).
P(N(t)=k)=k!e−λt(λt)k(λ>0).
将在两次事件发生之间的时间间隔的随机变量记为
T
T
T, 根据这个意义,
T
T
T为一个连续型随机变量。
F
T
(
t
)
=
P
(
T
≤
t
)
=
1
−
P
(
T
>
t
)
=
1
−
P
(
N
(
t
)
=
0
)
=
1
−
e
−
λ
t
(
t
≥
0
)
F_T(t)=P(T\le t)=1-P(T>t)=1-P(N(t)=0)=1-e^{-\lambda t}~~~(t\ge0)
FT(t)=P(T≤t)=1−P(T>t)=1−P(N(t)=0)=1−e−λt (t≥0)
则:
f
T
(
t
)
=
λ
e
−
λ
t
(
t
≥
0
)
f_T(t)=\lambda e^{-\lambda t} ~~~(t\ge0)
fT(t)=λe−λt (t≥0)
事件发生的次数服从参数为
λ
\lambda
λ的泊松分布,两次之间的时间间隔作为一个随机变量服从参数为
λ
\lambda
λ指数分布。使用分部积分,可以求出随机变量
T
T
T的期望为:
E
(
T
)
=
∫
0
+
∞
t
λ
e
−
λ
t
d
t
=
1
λ
E(T)=\int_{0}^{+\infty}t\lambda e^{-\lambda t}dt=\frac{1}{\lambda}
E(T)=∫0+∞tλe−λtdt=λ1
综上,可以理解参数
λ
\lambda
λ的实际意义:
λ
\lambda
λ是单位时间内发生事件个数的期望,两次事件发生之间的时间间隔的期望为
1
λ
.
\frac{1}{\lambda}.
λ1.
2 生存分析
在生存分析中,生存时间的分布类型不易确定。一般近似服从指数分布、Weibull分布、Gompertz分布、对数正态分布、对数Logistic分布等。除指数分布外,其他分布都在一定条件下呈现为“s型”生长曲线。
2.1 风险函数
在生存资料的分析中,可以使用 Cox 回归。上面定义随机变量 T T T 为两次事件发生之间的时间间隔,在我们衡量一个病人可以生存的时间时(从起始事件到终点事件的时间),可以使用 T T T, 将其作为一个服从参数为 λ \lambda λ 的指数分布的随机变量。下面介绍生存分析中的因变量。
如果有n个病人,将这n个病人的生存时间的随机变量记为
T
1
,
T
2
,
.
.
.
,
T
n
T_1,T_2,...,Tn
T1,T2,...,Tn, 则有
T
i
T_i
Ti的密度函数:
f
T
i
(
t
i
)
=
λ
i
e
−
λ
i
t
i
,
(
i
=
1
,
2
,
.
.
.
,
n
)
f_{T_i}(t_i)=\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n)
fTi(ti)=λie−λiti, (i=1,2,...,n)
T
i
T_i
Ti的分布函数为:
P
(
T
i
≤
t
i
)
=
F
T
i
(
t
i
)
=
1
−
λ
i
e
−
λ
i
t
i
,
(
i
=
1
,
2
,
.
.
.
,
n
)
P(T_i\le t_i)=F_{T_i}(t_i)=1-\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n)
P(Ti≤ti)=FTi(ti)=1−λie−λiti, (i=1,2,...,n)
对应的生存函数为:
S
T
i
(
t
i
)
=
P
(
T
i
>
t
i
)
=
1
−
F
T
i
(
t
i
)
=
e
−
λ
i
t
i
,
(
i
=
1
,
2
,
.
.
.
,
n
)
S_{T_i}(t_i)=P(T_i>t_i)=1-F_{T_i}(t_i)=e^{- \lambda_i t_i},~~~(i=1,2,...,n)
STi(ti)=P(Ti>ti)=1−FTi(ti)=e−λiti, (i=1,2,...,n)
风险函数为:
h
T
i
(
t
i
)
=
f
T
i
(
t
i
)
S
T
i
(
t
i
)
=
λ
i
h_{T_i}(t_i)=\frac{f_{T_i}(t_i)}{S_{T_i}(t_i)}=\lambda_i
hTi(ti)=STi(ti)fTi(ti)=λi
事实上,风险函数的分子部分是一个条件概率,求的是在一个病人已经生存到时间 t 的条件下在时间 t 的瞬时死亡率。风险函数值越大,瞬时死亡率越高,病人越危险。即:
h
(
t
)
=
f
(
t
)
S
(
t
)
=
lim
△
t
→
0
F
(
t
+
△
t
)
−
F
(
t
)
△
t
/
P
(
T
>
t
)
h(t)=\frac{f(t)}{S(t)}={{\lim\limits_{\triangle t\rightarrow0}}{\frac{F(t+\triangle t)-F(t)}{\triangle t}}}/ {{P(T>t)}}
h(t)=S(t)f(t)=△t→0lim△tF(t+△t)−F(t)/P(T>t)
=
lim
△
t
→
0
P
(
t
<
T
≤
t
+
△
t
)
/
P
(
T
>
t
)
△
t
~~~~~~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t<T\le t+\triangle t)/P(T>t)}{\triangle t}}
=△t→0lim△tP(t<T≤t+△t)/P(T>t)
=
lim
△
t
→
0
P
(
t
<
T
≤
t
+
△
t
∣
T
>
t
)
△
t
~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t<T\le t+\triangle t~|~T>t)}{\triangle t}}
=△t→0lim△tP(t<T≤t+△t ∣ T>t)
如果要建立 Cox 回归模型,首先要计算出每个患者所对应的 h T i ( t i ) = λ i h_{T_i}(t_i)=\lambda_i hTi(ti)=λi, 在使用贝叶斯思想对 λ i \lambda_i λi 进行参数估计时,可以用伽马分布(伽马分布中的参数估计可以再用均匀分布作为超先验分布)表示出 λ i \lambda_i λi 的分布情况,然后使用合适的统计量(例如众数或者均数)进行估计。
2.2 威布尔分布
服从参数为
λ
\lambda
λ与
k
k
k的两参数Weibull分布的随机变量
T
T
T的密度函数为:
f
(
t
)
=
k
λ
(
t
λ
)
k
−
1
e
−
(
t
λ
)
k
,
(
t
≥
0
)
f(t)= {\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} {e^{-(\frac{t}{\lambda})^k}},~~~(t\ge 0 )
f(t)=λk(λt)k−1e−(λt)k, (t≥0)
很明显,当参数
k
=
1
k=1
k=1时,随机变量
T
T
T服从参数为
1
λ
\frac{1}{\lambda}
λ1的指数分布。指数分布是Weibull分布的特例。Weibull分布也广泛地应用于生存资料的分析中。但威布尔分布更广泛地适用于机械结构失效分析过程中,许多有关威布尔分布的研究表明,如果某系统的局部失效导致了整个系统的功能失灵,则这种系统寿命一般服从Weibull分布。
T
T
T的分布函数为:
P
(
T
≤
t
)
=
F
(
t
)
=
1
−
e
x
p
{
−
(
t
k
)
k
}
,
(
t
≥
0
)
P(T\le t)=F(t)=1-exp\left\{-(\frac{t}{k})^k\right\},~~~(t\ge 0 )
P(T≤t)=F(t)=1−exp{−(kt)k}, (t≥0)
可靠度函数(对应于生存分析中的生存函数)为:
R
(
t
)
=
P
(
T
>
t
)
=
1
−
F
(
t
)
=
e
x
p
{
−
(
t
k
)
k
}
R(t)=P(T>t)=1-F(t)=exp\left\{-(\frac{t}{k})^k\right\}
R(t)=P(T>t)=1−F(t)=exp{−(kt)k}
失效率函数(对应于生存分析中的风险函数)为:
λ
(
t
)
=
f
(
t
)
R
(
t
)
=
k
λ
(
t
λ
)
k
−
1
\lambda(t)=\frac{f(t)}{R(t)}={\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}}
λ(t)=R(t)f(t)=λk(λt)k−1
2.3 对数正态分布
在介绍对数正态分布时,先介绍一个定理:
定理#: 已知随机变量 X X X的密度函数,且 t = g ( x ) t=g(x) t=g(x)严格单调,其反函数 x = h ( t ) x=h(t) x=h(t)有连续导函数,那么:
f T ( t ) = { f X [ h ( t ) ] ∣ h ′ ( t ) ∣ , ( m i n { g ( − ∞ ) , g ( + ∞ ) } < t < m a x { g ( − ∞ ) , g ( + ∞ ) } 0 , 其 他 f_T(t)=\left\{ \begin{aligned} f_X[h(t)]\left| h'(t)\right|, (min\left\{g(-\infty),g(+\infty)\right\}<t<max\left\{g(-\infty),g(+\infty)\right\}\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \end{aligned} \right. fT(t)={fX[h(t)]∣h′(t)∣,(min{g(−∞),g(+∞)}<t<max{g(−∞),g(+∞)}0, 其他
若随机变量
X
∼
N
(
μ
,
σ
2
)
,
X\sim N(\mu,\sigma^2),
X∼N(μ,σ2), 则随机变量
T
=
e
X
T=e^X
T=eX服从对数正态分布。 应用定理#,那么
T
=
e
X
T=e^X
T=eX的密度函数为:
f
(
t
)
=
{
1
t
2
π
σ
e
x
p
{
−
(
ln
t
−
μ
)
2
2
σ
2
}
,
t
>
0
0
,
t
≤
0
f(t)=\left\{ \begin{aligned} \frac{1}{t\sqrt {2\pi }\sigma}exp \left\{-\frac{(\ln t-\mu)^2}{2\sigma^2}\right\},~~~~~~~t>0\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right.
f(t)=⎩⎪⎨⎪⎧t2πσ1exp{−2σ2(lnt−μ)2}, t>00, t≤0
T
T
T的生存函数与风险函数与上面2.1一致。
2.4 log-logistic分布
随机变量
X
X
X服从logistic分布,则
T
=
e
X
T=e^X
T=eX服从 log-logistic分布。这里选取一种logistic分布的特例进行解释。
随机变量
X
X
X的密度函数为:
f
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
f(x)=\frac{e^{-x}}{(1+e^{-x})^2}
f(x)=(1+e−x)2e−x
应用定理#,那么
T
=
e
X
T=e^X
T=eX的密度函数为:
f
(
t
)
=
{
1
(
1
+
t
)
2
,
t
>
0
0
,
t
≤
0
f(t)=\left\{ \begin{aligned} \frac{1}{(1+t)^2},~~~t>0\\ 0,~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right.
f(t)=⎩⎪⎨⎪⎧(1+t)21, t>00, t≤0
T
T
T的生存函数与风险函数与上面2.1一致。