指数分布

最新推荐文章于 2024-08-08 19:26:43 发布

Emma_bbb

最新推荐文章于 2024-08-08 19:26:43 发布

阅读量1w

点赞数 3

分类专栏：统计文章标签：指数分布泊松分布生存分析

本文链接：https://blog.csdn.net/weixin_43174621/article/details/86064407

版权

统计专栏收录该内容

4 篇文章 0 订阅

订阅专栏

指数分布

当一个随机变量 $X$ ~ $exp(\lambda)$ 时，它的密度函数为：

$f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},~~~(x\geq0)\\ 0,~~~~~~~(x<0) \end{aligned} \right..$

1 泊松分布

前面介绍伽马分布的时候介绍过，伽马分布族是泊松分布中参数与指数分布中参数的共轭先验分布族，同时，指数分布是伽马分布的特例。其实，指数分布与泊松分布有着密不可分的联系，这也是通常把指数分布与泊松分布中的参数一般都计作 $\lambda$ 的原因。

随机变量 $\xi$ 服从参数为 $\lambda$ 的 $P o i s s o n$ 分布，即 $\xi$ ~ $P(\lambda)$ ,那么 $\xi$ 的分布列为：
$P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}(\lambda>0).$
服从指数分布的随机变量 $X$ 是连续型随机变量；服从泊松分布的随机变量 $\xi$ 是离散型随机变量。 $\xi$ 的实际意义可以是单位时间内事件发生的个数(一种计数)，即 $P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}$ 意味着: 单位时间内，特定事件发生的次数为 $k$ 的概率为 $\frac{e^{-\lambda}\lambda^k}{k!}$ .

简单使用级数，可以求出：
$E(\xi)=\sum\limits_{k=0}^{\infty}k\frac{e^{-\lambda}\lambda^k}{k!}=\lambda$
即在服从 $P(\lambda)$ 的 $\xi$ 的密度函数表达式中，参数 $\lambda$ 的意义是，单位时间内发生特定事件次数的期望值。可以将在时间 t 内发生事件的次数的随机变量可记为 $N (t)$ , 则有 $N(t)\sim P(\lambda t)$ ，即：
$P(N(t)=k)=\frac{e^{-\lambda t}(\lambda t)^k}{k!}(\lambda>0).$
将在两次事件发生之间的时间间隔的随机变量记为 $T$ , 根据这个意义， $T$ 为一个连续型随机变量。
$F_T(t)=P(T\le t)=1-P(T>t)=1-P(N(t)=0)=1-e^{-\lambda t}~~~(t\ge0)$
则：
$f_T(t)=\lambda e^{-\lambda t} ~~~(t\ge0)$
事件发生的次数服从参数为 $\lambda$ 的泊松分布，两次之间的时间间隔作为一个随机变量服从参数为 $\lambda$ 指数分布。使用分部积分，可以求出随机变量 $T$ 的期望为：
$E(T)=\int_{0}^{+\infty}t\lambda e^{-\lambda t}dt=\frac{1}{\lambda}$
综上，可以理解参数 $\lambda$ 的实际意义： $\lambda$ 是单位时间内发生事件个数的期望，两次事件发生之间的时间间隔的期望为 $\frac{1}{\lambda}.$

2 生存分析

在生存分析中，生存时间的分布类型不易确定。一般近似服从指数分布、Weibull分布、Gompertz分布、对数正态分布、对数Logistic分布等。除指数分布外，其他分布都在一定条件下呈现为“s型”生长曲线。

2.1 风险函数

在生存资料的分析中，可以使用 Cox 回归。上面定义随机变量 $T$ 为两次事件发生之间的时间间隔，在我们衡量一个病人可以生存的时间时(从起始事件到终点事件的时间)，可以使用 $T$ , 将其作为一个服从参数为 $\lambda$ 的指数分布的随机变量。下面介绍生存分析中的因变量。

如果有n个病人，将这n个病人的生存时间的随机变量记为 $T_1,T_2,...,Tn$ , 则有 $T_i$ 的密度函数：
$f_{T_i}(t_i)=\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n)$
$T_i$ 的分布函数为：
$P(T_i\le t_i)=F_{T_i}(t_i)=1-\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n)$
对应的生存函数为：
$S_{T_i}(t_i)=P(T_i>t_i)=1-F_{T_i}(t_i)=e^{- \lambda_i t_i},~~~(i=1,2,...,n)$
风险函数为：
$h_{T_i}(t_i)=\frac{f_{T_i}(t_i)}{S_{T_i}(t_i)}=\lambda_i$
事实上，风险函数的分子部分是一个条件概率，求的是在一个病人已经生存到时间 t 的条件下在时间 t 的瞬时死亡率。风险函数值越大，瞬时死亡率越高，病人越危险。即：
$h(t)=\frac{f(t)}{S(t)}={{\lim\limits_{\triangle t\rightarrow0}}{\frac{F(t+\triangle t)-F(t)}{\triangle t}}}/ {{P(T>t)}}$
$~~~~~~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t<T\le t+\triangle t)/P(T>t)}{\triangle t}}$
$~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t<T\le t+\triangle t~|~T>t)}{\triangle t}}$

如果要建立 Cox 回归模型，首先要计算出每个患者所对应的 $h_{T_i}(t_i)=\lambda_i$ , 在使用贝叶斯思想对 $\lambda_i$ 进行参数估计时，可以用伽马分布(伽马分布中的参数估计可以再用均匀分布作为超先验分布)表示出 $\lambda_i$ 的分布情况，然后使用合适的统计量(例如众数或者均数)进行估计。

2.2 威布尔分布

服从参数为 $\lambda$ 与 $k$ 的两参数Weibull分布的随机变量 $T$ 的密度函数为：
${\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} {e^{-(\frac{t}{\lambda})^k}},~~~(t\ge 0 )$
很明显，当参数 $k = 1$ 时，随机变量 $T$ 服从参数为 $\frac{1}{\lambda}$ 的指数分布。指数分布是Weibull分布的特例。Weibull分布也广泛地应用于生存资料的分析中。但威布尔分布更广泛地适用于机械结构失效分析过程中，许多有关威布尔分布的研究表明，如果某系统的局部失效导致了整个系统的功能失灵，则这种系统寿命一般服从Weibull分布。

$T$ 的分布函数为：
$P(T\le t)=F(t)=1-exp\left\{-(\frac{t}{k})^k\right\},~~~(t\ge 0 )$
可靠度函数(对应于生存分析中的生存函数)为：
$R(t)=P(T>t)=1-F(t)=exp\left\{-(\frac{t}{k})^k\right\}$
失效率函数(对应于生存分析中的风险函数)为：
$\lambda(t)=\frac{f(t)}{R(t)}={\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}}$

2.3 对数正态分布

在介绍对数正态分布时，先介绍一个定理：

定理#：已知随机变量 $X$ 的密度函数，且 $t = g (x)$ 严格单调,其反函数 $x = h (t)$ 有连续导函数，那么:

$f_T(t)=\left\{ \begin{aligned} f_X[h(t)]\left| h'(t)\right|, (min\left\{g(-\infty),g(+\infty)\right\}<t<max\left\{g(-\infty),g(+\infty)\right\}\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \end{aligned} \right.$

若随机变量 $X\sim N(\mu,\sigma^2),$ 则随机变量 $T=e^X$ 服从对数正态分布。应用定理#，那么 $T=e^X$ 的密度函数为：
$f(t)=\left\{ \begin{aligned} \frac{1}{t\sqrt {2\pi }\sigma}exp \left\{-\frac{(\ln t-\mu)^2}{2\sigma^2}\right\},~~~~~~~t>0\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right.$
$T$ 的生存函数与风险函数与上面2.1一致。

2.4 log-logistic分布

随机变量 $X$ 服从logistic分布，则 $T=e^X$ 服从 log-logistic分布。这里选取一种logistic分布的特例进行解释。
随机变量 $X$ 的密度函数为：
$f(x)=\frac{e^{-x}}{(1+e^{-x})^2}$
应用定理#,那么 $T=e^X$ 的密度函数为：
$f(t)=\left\{ \begin{aligned} \frac{1}{(1+t)^2},~~~t>0\\ 0,~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right.$
$T$ 的生存函数与风险函数与上面2.1一致。