从二项分布到伽马分布

蒋晨阳

已于 2022-10-06 19:51:31 修改

阅读量878

点赞数 1

分类专栏： CNN 文章标签：概率论算法机器学习

于 2022-10-04 22:36:22 首次发布

本文链接：https://blog.csdn.net/qq_45520114/article/details/127167504

版权

CNN 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

从二项分布到伽马分布

二项分布

二项分布是指 $n$ 个独立的伯努利试验中成功次数的离散概率分布，其中每次试验的成功概率为 $p$

$p)=\begin{pmatrix}n\\k\end{pmatrix}p^k(1 - p)^{n-k}$

$k$ ：成功的次数
$n$ ：总的试验次数
$p$ ：单词试验成功的次数

泊松分布

当二项分布试验的次数无穷多，但试验成功的总次数固定时，二项分布收敛于泊松分布。
$P(X=k)=\frac{e^{-\lambda}}{k!}$
实际意义为一段时间内试验成功的平均次数为 $\lambda$ ，则同样的时间段内试验成功 $k$ 次的概率。

简记为 $X\sim\pi(\lambda)$ 或 $X\sim Pois(\lambda)$

推导：

已知某一固定时间长度 $T$ 内，平均会发生 $\lambda$ 次事件
将时间长度分为 $n$ 份，每一小段时间段 $\frac{T}{n}$ 发生事件的概率为 $p=\frac{\lambda}{n}$
则时间长度 $T$ 内，有 $k$ 次事件发生的概率为
$P(X=k)=\begin{pmatrix}n\\k\end{pmatrix}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$
将时间无限细分，得到
$\begin{align} P(X=k)&=\lim_{n\to\infin}\begin{pmatrix}n\\k\end{pmatrix}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &=\lim_{n\to\infin}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k}\\ &=\lim_{n\to\infin}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^n\\ &=\lim_{n\to\infin}\frac{n!}{(n-k)!n^k}\frac{\lambda^k}{k!}\lim_{n\to\infin}(1-\frac{\lambda}{n})^n\\ &=(\lim_{n\to\infin}\frac{n!}{(n-k)!n^k})(\frac{\lambda^k}{k!}e^{-\lambda})\\ &=(\lim_{n\to\infin}\frac{n}{n}\frac{n-1}{n}\cdots\frac{n-k+1}{n})(\frac{\lambda^k}{k!}e^{-\lambda})\\ &=\frac{\lambda^k}{k!}e^{-\lambda} \end{align}$

指数分布

表示独立随机事件发生的时间间隔，形式如下
$f(x,\lambda)=\begin{cases} \lambda e^{-\lambda x},&x>=0\\ 0,&otherwise \end{cases}$
实际意义为已知单位时间内事件的发生次数 $\lambda$ ， $X$ 表示从某一次事件发生之后，第 $1$ 次事件再次发生所经历的时间。

简记为 $X\sim\text{Exp}(\lambda)$

推导：

已知单位时间内，会发生 $\lambda$ 次事件
那么单位时间内，发生 $Y$ 次事件的概率分布满足 $Y\sim\pi(\lambda)$
则单位时间内，一次事件也没有发生的概率为 $P(Y=0)=\frac{\lambda^0}{0!}e^{-\lambda}=e^{-\lambda}$
那么 $x$ 个单位时间内，其 $\lambda'=\lambda x$ ，则一次事件也没有发生的概率为 $e^{-\lambda x}$
即 $P(X>x)=e^{-\lambda x}$ ，其中 $X$ 为上一次事件发生之后，到下一次事件发生所经过的时间
则 $P(X\leq x)=1-e^{-\lambda x}$
则概率密度函数 $f(x)=(1-e^{-\lambda x})'=\lambda e^{-\lambda x}$

伽马分布

假设 $X_1,X_2,\cdots,X_n$ 为连续发生事件的等候时间，则 $n$ 次等候时间之和 $Y=\sum_{i=1}^nX_i$ 满足伽马分布
$f(x,\alpha,\lambda)=\frac{x^{(\alpha-1)}\lambda^\alpha e^{(-\lambda x)}}{\Gamma(\alpha)}$
或
$f(x,\alpha,\beta)=\frac{x^{(\alpha-1)} e^{(-\frac{1}{\beta} x)}}{\beta^\alpha\Gamma(\alpha)}$
其中 $\beta=\frac{1}{\lambda}$ 。

实际意义为已知单位时间内事件平均发生次数为 $\lambda$ ， $X$ 表示从某一次事件发生之后，第 $\alpha$ 次事件发生所经历的时间。

简记为 $X\sim\Gamma(\alpha,\lambda)$ 。

伽马函数介绍：

其中 $\Gamma(x)$ 为伽马函数，其形式为
$\Gamma(z)=\int_0^\infin x^{z-1}e^{-x}dx$
通过分步积分可得
$\begin{align} \Gamma(z)&=\int_0^\infin x^{z-1}e^{-x}dx\\ &=\int_0^\infin x^{z-1}d(-e^{-x})\\ &=x^{z-1}(-e^{-x})|_{x=0}^\infin+\int_0^\infin e^{-x}(dx^{z-1})\\ &=(z-1)\int_0^\infin x^{z-2}e^{-x}dx\\ &=(z-1)\Gamma(z-1) \end{align}$
又因为 $\Gamma(0)=1$ ，故当 $x$ 为自然数时 $\Gamma(x)=(x-1)!$

$\Gamma(x)$ 常用值有：

$\Gamma(\frac{1}{2})=\sqrt{\pi}$
$\Gamma(1)=1$
$\Gamma(\frac{3}{2})=\frac{\sqrt{\pi}}{2}$
$\Gamma(2)=1$

伽马分布的证明：

单位时间内发生 $k$ 次事件的概率 $\lambda^k\frac{e^{-\lambda}}{k!}$
$x$ 个单位时间内发生 $k$ 次事件的概率 $(\lambda x)^k\frac{e^{-\lambda x}}{k!}$
$x$ 个单位时间内，发生不到 $\alpha$ 次事件的概率 $\sum_{k=1}^{\alpha-1}(\lambda x)^k\frac{e^{-\lambda x}}{k!}$
则 $P(X>=x)=\sum_{k=1}^{\alpha-1}(\lambda x)^k\frac{e^{-\lambda x}}{k!}$
$P(X<x)=1-\sum_{k=1}^{\alpha-1}(\lambda x)^k\frac{e^{-\lambda x}}{k!}$
对 $P$ 求导之后可得概率密度函数
$f(x)=\frac{\lambda e^{-\lambda x}(\lambda x)^{k-1}}{(k-1)!}=\frac{\lambda^kx^{k-1}e^{-\lambda x}}{\Gamma(k)}$

性质：

期望 $\frac{k}{\gamma}$ ，方差 $\frac{k}{\gamma^2}$
满足可加性，若 $X_1,X_2$ 相互独立，且 $X_1\sim\Gamma(\alpha_1,\lambda)$ ， $X_2\sim\Gamma(\alpha_2,\lambda)$ ，则 $X_1+X_2\sim\Gamma(\alpha_1+\alpha_2,\lambda)$
$\Gamma(1,\lambda)=E(\lambda)$ ， $\Gamma(\frac{n}{2},\frac{1}{2})=\chi^2(n)$

函数图像展示：

当固定 $k$ 时，可以看到随着 $\lambda$ 的增加，函数也随之增高（方差降低），同时分布靠近原点（期望降低）。因为更容易在较短的时间内发生 $k$ 次事件。

在这里插入图片描述

总结

分布	含义
二项分布 $B (n, p)$	$n$ 次独立伯努利试验中事件恰发生 $k$ 次的概率
泊松分布 $\pi(\lambda)$	已知单位时间内会发生 $\lambda$ 次事件，事件在任意时刻发生概率相同，求同样时间内发生 $k$ 次事件的概率。
指数分布 $\text{Exp}(\lambda)$	已知单位时间内会发生 $\lambda$ 次事件，事件在任意时刻发生概率相同，求发生一次事件后，等待 $t$ 个单位时间之后再次发生事件的概率密度函数
伽马分布 $\Gamma(\alpha,\lambda)$	已知单位时间内会发生 $\lambda$ 次事件，事件在任意时刻发生概率相同，求发生一次事件后，等待 $t$ 个单位时间之后会发生第 $\alpha$ 次事件的概率密度函数