指数分布

指数分布

当一个随机变量 X X X ~ e x p ( λ ) exp(\lambda) exp(λ)时,它的密度函数为:

f ( x ) = { λ e − λ x ,     ( x ≥ 0 ) 0 ,         ( x &lt; 0 ) . f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},~~~(x\geq0)\\ 0,~~~~~~~(x&lt;0) \end{aligned} \right.. f(x)={λeλx,   (x0)0,       (x<0).

1 泊松分布

前面介绍伽马分布的时候介绍过,伽马分布族是泊松分布中参数与指数分布中参数的共轭先验分布族,同时,指数分布是伽马分布的特例。其实,指数分布与泊松分布有着密不可分的联系,这也是通常把指数分布与泊松分布中的参数一般都计作 λ \lambda λ的原因。

随机变量 ξ \xi ξ服从参数为 λ \lambda λ P o i s s o n Poisson Poisson分布,即 ξ \xi ξ~ P ( λ ) P(\lambda) P(λ),那么 ξ \xi ξ的分布列为:
P ( ξ = k ) = e − λ λ k k ! ( λ &gt; 0 ) . P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}(\lambda&gt;0). P(ξ=k)=k!eλλk(λ>0).
服从指数分布的随机变量 X X X是连续型随机变量;服从泊松分布的随机变量 ξ \xi ξ是离散型随机变量。 ξ \xi ξ的实际意义可以是单位时间内事件发生的个数(一种计数),即 P ( ξ = k ) = e − λ λ k k ! P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!} P(ξ=k)=k!eλλk意味着: 单位时间内,特定事件发生的次数为 k k k的概率为 e − λ λ k k ! \frac{e^{-\lambda}\lambda^k}{k!} k!eλλk.

简单使用级数,可以求出:
E ( ξ ) = ∑ k = 0 ∞ k e − λ λ k k ! = λ E(\xi)=\sum\limits_{k=0}^{\infty}k\frac{e^{-\lambda}\lambda^k}{k!}=\lambda E(ξ)=k=0kk!eλλk=λ
即在服从 P ( λ ) P(\lambda) P(λ) ξ \xi ξ 的密度函数表达式中,参数 λ \lambda λ的意义是,单位时间内发生特定事件次数的期望值。可以将在时间 t 内发生事件的次数的随机变量可记为 N ( t ) N(t) N(t), 则有 N ( t ) ∼ P ( λ t ) N(t)\sim P(\lambda t) N(t)P(λt),即:
P ( N ( t ) = k ) = e − λ t ( λ t ) k k ! ( λ &gt; 0 ) . P(N(t)=k)=\frac{e^{-\lambda t}(\lambda t)^k}{k!}(\lambda&gt;0). P(N(t)=k)=k!eλt(λt)k(λ>0).
将在两次事件发生之间的时间间隔的随机变量记为 T T T, 根据这个意义, T T T为一个连续型随机变量。
F T ( t ) = P ( T ≤ t ) = 1 − P ( T &gt; t ) = 1 − P ( N ( t ) = 0 ) = 1 − e − λ t     ( t ≥ 0 ) F_T(t)=P(T\le t)=1-P(T&gt;t)=1-P(N(t)=0)=1-e^{-\lambda t}~~~(t\ge0) FT(t)=P(Tt)=1P(T>t)=1P(N(t)=0)=1eλt   (t0)
则:
f T ( t ) = λ e − λ t     ( t ≥ 0 ) f_T(t)=\lambda e^{-\lambda t} ~~~(t\ge0) fT(t)=λeλt   (t0)
事件发生的次数服从参数为 λ \lambda λ的泊松分布,两次之间的时间间隔作为一个随机变量服从参数为 λ \lambda λ指数分布。使用分部积分,可以求出随机变量 T T T的期望为:
E ( T ) = ∫ 0 + ∞ t λ e − λ t d t = 1 λ E(T)=\int_{0}^{+\infty}t\lambda e^{-\lambda t}dt=\frac{1}{\lambda} E(T)=0+tλeλtdt=λ1
综上,可以理解参数 λ \lambda λ的实际意义: λ \lambda λ是单位时间内发生事件个数的期望,两次事件发生之间的时间间隔的期望为 1 λ . \frac{1}{\lambda}. λ1.

2 生存分析

在生存分析中,生存时间的分布类型不易确定。一般近似服从指数分布、Weibull分布、Gompertz分布、对数正态分布、对数Logistic分布等。除指数分布外,其他分布都在一定条件下呈现为“s型”生长曲线。

2.1 风险函数

在生存资料的分析中,可以使用 Cox 回归。上面定义随机变量 T T T 为两次事件发生之间的时间间隔,在我们衡量一个病人可以生存的时间时(从起始事件到终点事件的时间),可以使用 T T T, 将其作为一个服从参数为 λ \lambda λ 的指数分布的随机变量。下面介绍生存分析中的因变量。

如果有n个病人,将这n个病人的生存时间的随机变量记为 T 1 , T 2 , . . . , T n T_1,T_2,...,Tn T1,T2,...,Tn, 则有 T i T_i Ti的密度函数:
f T i ( t i ) = λ i e − λ i t i ,     ( i = 1 , 2 , . . . , n ) f_{T_i}(t_i)=\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n) fTi(ti)=λieλiti,   (i=1,2,...,n)
T i T_i Ti的分布函数为:
P ( T i ≤ t i ) = F T i ( t i ) = 1 − λ i e − λ i t i ,     ( i = 1 , 2 , . . . , n ) P(T_i\le t_i)=F_{T_i}(t_i)=1-\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n) P(Titi)=FTi(ti)=1λieλiti,   (i=1,2,...,n)
对应的生存函数为:
S T i ( t i ) = P ( T i &gt; t i ) = 1 − F T i ( t i ) = e − λ i t i ,     ( i = 1 , 2 , . . . , n ) S_{T_i}(t_i)=P(T_i&gt;t_i)=1-F_{T_i}(t_i)=e^{- \lambda_i t_i},~~~(i=1,2,...,n) STi(ti)=P(Ti>ti)=1FTi(ti)=eλiti,   (i=1,2,...,n)
风险函数为:
h T i ( t i ) = f T i ( t i ) S T i ( t i ) = λ i h_{T_i}(t_i)=\frac{f_{T_i}(t_i)}{S_{T_i}(t_i)}=\lambda_i hTi(ti)=STi(ti)fTi(ti)=λi
事实上,风险函数的分子部分是一个条件概率,求的是在一个病人已经生存到时间 t 的条件下在时间 t 的瞬时死亡率。风险函数值越大,瞬时死亡率越高,病人越危险。即:
h ( t ) = f ( t ) S ( t ) = lim ⁡ △ t → 0 F ( t + △ t ) − F ( t ) △ t / P ( T &gt; t ) h(t)=\frac{f(t)}{S(t)}={{\lim\limits_{\triangle t\rightarrow0}}{\frac{F(t+\triangle t)-F(t)}{\triangle t}}}/ {{P(T&gt;t)}} h(t)=S(t)f(t)=t0limtF(t+t)F(t)/P(T>t)
                         = lim ⁡ △ t → 0 P ( t &lt; T ≤ t + △ t ) / P ( T &gt; t ) △ t ~~~~~~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t&lt;T\le t+\triangle t)/P(T&gt;t)}{\triangle t}}                         =t0limtP(t<Tt+t)/P(T>t)
                    = lim ⁡ △ t → 0 P ( t &lt; T ≤ t + △ t   ∣   T &gt; t ) △ t ~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t&lt;T\le t+\triangle t~|~T&gt;t)}{\triangle t}}                    =t0limtP(t<Tt+t  T>t)

如果要建立 Cox 回归模型,首先要计算出每个患者所对应的 h T i ( t i ) = λ i h_{T_i}(t_i)=\lambda_i hTi(ti)=λi, 在使用贝叶斯思想对 λ i \lambda_i λi 进行参数估计时,可以用伽马分布(伽马分布中的参数估计可以再用均匀分布作为超先验分布)表示出 λ i \lambda_i λi 的分布情况,然后使用合适的统计量(例如众数或者均数)进行估计。

2.2 威布尔分布

服从参数为 λ \lambda λ k k k的两参数Weibull分布的随机变量 T T T的密度函数为:
f ( t ) = k λ ( t λ ) k − 1 e − ( t λ ) k ,     ( t ≥ 0 ) f(t)= {\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} {e^{-(\frac{t}{\lambda})^k}},~~~(t\ge 0 ) f(t)=λk(λt)k1e(λt)k,   (t0)
很明显,当参数 k = 1 k=1 k=1时,随机变量 T T T服从参数为 1 λ \frac{1}{\lambda} λ1的指数分布。指数分布是Weibull分布的特例。Weibull分布也广泛地应用于生存资料的分析中。但威布尔分布更广泛地适用于机械结构失效分析过程中,许多有关威布尔分布的研究表明,如果某系统的局部失效导致了整个系统的功能失灵,则这种系统寿命一般服从Weibull分布。

T T T的分布函数为:
P ( T ≤ t ) = F ( t ) = 1 − e x p { − ( t k ) k } ,     ( t ≥ 0 ) P(T\le t)=F(t)=1-exp\left\{-(\frac{t}{k})^k\right\},~~~(t\ge 0 ) P(Tt)=F(t)=1exp{(kt)k},   (t0)
可靠度函数(对应于生存分析中的生存函数)为:
R ( t ) = P ( T &gt; t ) = 1 − F ( t ) = e x p { − ( t k ) k } R(t)=P(T&gt;t)=1-F(t)=exp\left\{-(\frac{t}{k})^k\right\} R(t)=P(T>t)=1F(t)=exp{(kt)k}
失效率函数(对应于生存分析中的风险函数)为:
λ ( t ) = f ( t ) R ( t ) = k λ ( t λ ) k − 1 \lambda(t)=\frac{f(t)}{R(t)}={\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} λ(t)=R(t)f(t)=λk(λt)k1

2.3 对数正态分布

在介绍对数正态分布时,先介绍一个定理:

定理#: 已知随机变量 X X X的密度函数,且 t = g ( x ) t=g(x) t=g(x)严格单调,其反函数 x = h ( t ) x=h(t) x=h(t)有连续导函数,那么:

f T ( t ) = { f X [ h ( t ) ] ∣ h ′ ( t ) ∣ , ( m i n { g ( − ∞ ) , g ( + ∞ ) } &lt; t &lt; m a x { g ( − ∞ ) , g ( + ∞ ) } 0 ,                                     其 他                                                               f_T(t)=\left\{ \begin{aligned} f_X[h(t)]\left| h&#x27;(t)\right|, (min\left\{g(-\infty),g(+\infty)\right\}&lt;t&lt;max\left\{g(-\infty),g(+\infty)\right\}\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \end{aligned} \right. fT(t)={fX[h(t)]h(t),(min{g(),g(+)}<t<max{g(),g(+)}0,                                                                                                

若随机变量 X ∼ N ( μ , σ 2 ) , X\sim N(\mu,\sigma^2), XN(μ,σ2), 则随机变量 T = e X T=e^X T=eX服从对数正态分布。 应用定理#,那么 T = e X T=e^X T=eX的密度函数为:
f ( t ) = { 1 t 2 π σ e x p { − ( ln ⁡ t − μ ) 2 2 σ 2 } ,         t &gt; 0 0 ,                                  t ≤ 0 f(t)=\left\{ \begin{aligned} \frac{1}{t\sqrt {2\pi }\sigma}exp \left\{-\frac{(\ln t-\mu)^2}{2\sigma^2}\right\},~~~~~~~t&gt;0\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right. f(t)=t2π σ1exp{2σ2(lntμ)2},       t>00,                                t0
T T T的生存函数与风险函数与上面2.1一致。

2.4 log-logistic分布

随机变量 X X X服从logistic分布,则 T = e X T=e^X T=eX服从 log-logistic分布。这里选取一种logistic分布的特例进行解释。
随机变量 X X X的密度函数为:
f ( x ) = e − x ( 1 + e − x ) 2 f(x)=\frac{e^{-x}}{(1+e^{-x})^2} f(x)=(1+ex)2ex
应用定理#,那么 T = e X T=e^X T=eX的密度函数为:
f ( t ) = { 1 ( 1 + t ) 2 ,     t &gt; 0 0 ,              t ≤ 0 f(t)=\left\{ \begin{aligned} \frac{1}{(1+t)^2},~~~t&gt;0\\ 0,~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right. f(t)=(1+t)21,   t>00,            t0
T T T的生存函数与风险函数与上面2.1一致。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值