Beta 分布和 Gamma 分布

SATAN 先生

已于 2024-05-18 10:07:30 修改

阅读量2.4k

点赞数 18

分类专栏： Optimal Transport 机器学习数学文章标签：概率论机器学习

于 2024-05-17 15:25:17 首次发布

本文链接：https://blog.csdn.net/qq_32527569/article/details/138966417

版权

机器学习同时被 3 个专栏收录

23 篇文章

订阅专栏

数学

13 篇文章

订阅专栏

Optimal Transport

9 篇文章

订阅专栏

0. 摘要

本文主要介绍 $B e t a$ 分布和 $G amma$ 分布之间的关系, 以及两者的采样方法. 其实, PyTorch、Numpy、Scipy 等一些机器学习包已经实现了对这两种分布的包装, 本文主要目的是理解背后的大致原理.

1. Beta 分布

设 $\sim Beta(\alpha, \beta)$ , 概率密度函数为: $\begin{aligned} f(x; \alpha, \beta) = \frac{1}{\Beta(\alpha,\beta)} x^{\alpha-1}(1-x)^{\beta-1} \end{aligned}$ 其中 $\in (0,1), \alpha, \beta > 0$ .

更具体的介绍见博文《beta分布及共轭Bernoulli分布-先验、后验、预测分布》.

2. Gamma 分布

设 $\sim \Gamma(\alpha, \beta)$ , 概率密度函数: $\begin{aligned} f(x; \alpha, \beta) &= \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} \end{aligned}$ 其中 $\alpha \gt 0$ 控制形状, $\beta \gt 0$ 控制缩放.

3. 惊叹于文心一言, 太厉害了

提问: 已知 $X, Y$ 相互独立, 都服从 $G amma$ 分布, 请推导 $\frac{X}{X+Y}$ 服从 $B e t a$ 分布.

答: 为了证明 $\frac{X}{X+Y}$ 服从 $B e t a$ 分布，我们可以按照以下步骤进行推导：

第一步，根据题目已知， $X$ 和 $Y$ 是相互独立的随机变量，且都服从 $G amma$ 分布。设 $\sim Gamma(\alpha, \lambda),~ Y \sim Gamma(\beta, \lambda)$ ，其中 $\alpha, \beta, \lambda>0$ .

第二步，根据 $G amma$ 分布的概率密度函数，我们有： $\begin{aligned} f_X(x) =& \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, x \gt 0 \\ f_Y(y) =& \frac{\lambda^\beta}{\Gamma(\beta)} x^{\beta-1} e^{-\lambda y}, y \gt 0 \end{aligned}$ 第三步，为了求 $\frac{X}{X+Y}$ 的分布，我们考虑随机变量 $U=\frac{X}{X+Y}$ 和 $V = X + Y$ 的联合分布。注意到 $U$ 和 $V$ 的变换是可逆的，即 $X = U V, Y = V (1 - U)$ 。

第四步，根据随机变量变换的联合概率密度函数，我们有： $f_{U,V}(u,v) = f_{X,Y}(uv,v(1−u))\left|\frac{\partial(x,y)}{\partial(u,v)}\right|$ 其中，雅可比行列式 $\left|\frac{\partial(x,y)}{\partial(u,v)}\right| = v$ .

第五步，将 $f_X(x)$ 和 $f_Y(y)$ 代入第四步的公式中，得到： $\begin{aligned} f_{U,V}(u,v) =& \frac{\lambda^\alpha}{\Gamma(\alpha)} (uv)^{\alpha-1} e^{-\lambda uv} \cdot \frac{\lambda^\beta}{\Gamma(\beta)} (v(1-u))^{\beta-1} e^{-\lambda v(1-u)} \cdot v \\ =& \frac{\lambda^{\alpha+\beta}}{\Gamma(\alpha)\Gamma(\beta)} u^{\alpha-1} (1-u)^{\beta-1} v^{\alpha+\beta-1} e^{-\lambda v} \end{aligned}$ 第六步，注意到 $f_{U,V}(u,v)$ 可以分解为 $f_{U}(u)$ 和 $f_{V}(v)$ 的乘积，即： $f_{U,V}(u,v) = f_{U}(u) \cdot f_{V}(v)$ 其中: $\begin{aligned} f_{U}(u) =& \frac{1}{\Beta(\alpha,\beta)} u^{\alpha-1} (1-u)^{\beta-1}, & 0 \lt u \lt 1 \\ f_{V}(v) =& \frac{\lambda^{\alpha+\beta}}{\Gamma(\alpha+\beta)} v^{\alpha+\beta-1} e^{-\lambda v}, & v \gt 1 \end{aligned}$ 这里， $\Beta(\alpha,\beta)$ 是 $B e t a$ 函数，与 $G amma$ 函数的关系为 $\Beta(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$ 。

第七步，由于 $f_{U,V}(u,v)$ 可以分解为 $f_{U}(u)$ 和 $f_{V}(v)$ 的乘积，根据随机变量的独立性，我们知道 $U$ 和 $V$ 是独立的。

第八步，根据第七步的结论， $U=\frac{X}{X+Y}$ 的边缘分布就是 $f_{U}(u)$ ，即 $B e t a$ 分布 $B e t a (α, β)$ 。

综上，我们证明了 $\frac{X}{X+Y}$ 服从 $B e t a$ 分布。

以上一字未改哦! 非常简洁, 确实厉害. 不足之处在于其对步骤的划分不是很合理, 主要是第一步和第二步, 感觉合起来比较好.

[注1]: 关于二元概率分布的变量代换, 请参阅《二重积分的换元公式及其应用简介(高等数学入门系列拓展阅读)》.

[注2]: 同时得到结论 “ $\sim Gamma(\alpha+\beta)$ ”.

4. 采样

这是 Wikipedia 中对 Beta 分布采样方法的描述. 也即, 我们只需要从 $\sim Gamma(\alpha,1)$ 和 $\sim Gamma(\beta,1)$ 中分别独立地采样两个随机数 $x, y$ , 就能得到随机数 $\frac{x}{x+y}$ , 其相当于采样自 $Beta(\alpha, \beta)$ . 这也许就是所谓的不需要拒绝接受采样吧.

但是, $Gamma(\alpha,1)$ 就好采样了吗?

大概意思是说:

分布 $G amma (1, 1)$ 就是指数分布 $E x p (1)$ , 其可以采用 Inverse Transform Sampling, 轻而易举的到 $\sim Gamma(1,1)~$ (其中 $\sim Uniform(0,1]$ );
$G amma$ 分布有一个叫 $\alpha$ -addition 的性质, 可以使 $-\sum_{k=1}^{n} lnU_k \sim Gamma(n,1)$ .

4.1 $G amma (1, 1)$

设 $\sim Gamma(1,1)$ , 则其概率密度函数为 $f_X(x) = \frac{1}{\Gamma(1)} e^{-x} = e^{-x}, x\ge0$ 则累积分布函数为 $F_X(x) = 1 - e^{-x}$ 按照逆变换采样, $U=F_X(x) \sim Uniform(0,1)$ , 则 $x = - l n (1 - U)$ 哎, 为什么和 Wikipedia 的 $- l n U$ 不一致? 其实 $\sim Uniform(0,1)$ . 即, 从 $U ni f or m (0, 1)$ 中采样的到 $U$ , 计算 $x = - l n U$ 就得到对 $G amma (1, 1)$ 的采样.

4.2 $\alpha$ -addition 性质

前面已经说过 “ $\sim Gamma(\alpha+\beta)$ ”, 那么 $n$ 个 $G amma (1, 1)$ 加起来, 就服从 $G amma (n, 1)$ 了, 故而对 $G amma (n, 1)$ 的采样很简单: $-\sum_{k=1}^{n} lnU_k$ 独立地从 $U ni f or m (0, 1)$ 中采样 $n$ 个样本, 再按照上面的式子计算就好了.

如此以来, 从分布 $Beta(\alpha, \beta)$ 中采样易如反掌:

搞一个均匀分布 $U ni f or m (0, 1)$ 的生成器, 生成 $(\alpha + \beta)$ 个随机数 $\{U_i\}_1^{\alpha + \beta}$ ;
计算 $-\sum_{k=1}^{\alpha} lnU_k$ , $-\sum_{k=\alpha+1}^{\alpha+\beta} lnU_k$ ;
$\frac{x}{x+y}$ 为所求采样.