机器学习笔记之指数族分布——指数族分布介绍

静静的喝酒

已于 2023-07-20 15:34:16 修改

阅读量3.3k

点赞数 5

分类专栏：机器学习文章标签：机器学习概率论指数族分布充分统计量共轭分布

于 2022-08-08 19:35:44 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126224998

版权

机器学习笔记之指数族分布——指数族分布介绍

引言

引言

本节及后续小节将从指数族分布 $\to$ 熵、最大熵原理 $\to \text{sigmoid,softmax}$ 函数的思路进行介绍。

指数族分布介绍

指数族分布( $\text{Exponential Families of Distributions}$ )，它不是某一个分布，而是满足某种条件的分布集合。从名字可以看出，指数族分布描述的概率分布与指数相关。指数族分布的统一格式表示如下：
$\mathcal P(x \mid \eta) = h(x) \exp \left\{\eta^{T} \phi(x) - A(\eta) \right\}$

如果只看公式等号左边 $\to P(x \mid \eta)$ ，在介绍极大似然估计与最大后验概率估计中介绍过，它可以表示为 基于参数向量 $\eta$ ，生成随机样本 $x$ 的概率模型。

我们称：

$\phi(x)$ 为充分统计量，它可以理解成样本的函数—— 如果已知充分统计量，就可以通过该统计量得到完整的概率分布表达形式。
在后续的公式推导中进行证明。
$\eta$ 表示生成概率模型 $\mid \eta)$ 的参数向量；
$h (x)$ 仅表示关于 $x$ 的一个函数，在一些具体分布中(如高斯分布、伯努利分布)通常以常数形式出现；
$A(\eta)$ 通常表示为 $\log$ 配分函数(对数配分函数)( $\text{log Partition Function}$ )，在指数族分布主要起归一化作用，其本质是关于模型参数 $\eta$ 的函数；
因此，指数族分布还有另一种常见表达形式(将 $A(\eta)$ 提出来)：
$\begin{aligned} \mathcal P(x \mid \eta) & = h(x) \exp \left\{\eta^{T} \cdot \phi(x) \right\} \cdot \exp \{-A(\eta)\} \\ & = \frac{1}{\exp \{A(\eta)\}} \cdot h(x) \exp \left\{\eta^{T} \cdot \phi(x) \right\} \end{aligned}$
令 $\exp \{A(\eta) \} = \mathcal Z$ ( $\mathcal Z$ 表示 配分函数)；原始表示为：
$\frac{1}{\mathcal Z} h(x) \cdot \exp \{\eta^{T} \cdot \phi(x) \}$
因此， $A(\eta) = \log \mathcal Z$ 。这也是 $A(\eta)$ 对数配分函数的由来。
配分函数相关:传送门

指数族分布应用广泛，如广义线性模型( $\text{Generalized Linear Model,GLM}$ )，概率图中的无向图模型如受限玻尔兹曼机( $\text{Restricted Boltzmann Machine,RBM}$ )均存在指数族分布的理论支撑；
甚至在深度强化学习中，使用策略梯度方法求解强化学习任务时，需要使用 $\text{Softmax}$ 函数将离散型的动作映射成具有连续性质的指数族分布。

常见指数族分布

我们在概率论与数理统计中学习到的大部分分布都是指数族分布，下面列举一些常见分布：

高斯分布( $\text{Normal Distribution}$ )；
伯努利分布( $\text{Bernoulli Distribution}$ )；
二项分布( $\text{Binomial Distribution}$ )；
泊松分布( $\text{Poisson Distribution}$ )；
贝塔分布( $\text{Beta Distribution}$ )；
狄利克雷分布( $\text{Dirichlet Distribution}$ )；
伽马分布( $\text{Gamma Distribution}$ )等等。

下面对伯努利分布、高斯分布、二项分布进行推导，观察经过变化后的分布和指数族分布统一格式之间的关联关系。

推导过程

伯努利分布：
$\mathcal P(x) = p^x \cdot (1 - p)^{1-x} = \begin{cases} p \quad \text{if} \quad x = 1 \\ q \quad \text{if} \quad x = 0 \end{cases}$

将上述公式进行变化：
- 插入 $\exp$ 并完全展开：
  $\begin{aligned} \mathcal P(x) & = p^x \cdot (1 - p)^{1-x} \\ & = \exp \{\log \left[p^x(1 - p)^{1-x} \right] \} \\ & = \exp \left\{x \cdot \log \left[\frac{p}{1- p}\right] + \log (1- p) \right\} \end{aligned}$
- 令 $\begin{aligned} \eta = \log\frac{p}{1 - p} \end{aligned}$ ，那么 $p$ 用 $\eta$ 表示为：
  $\frac{\exp \{\eta\}}{1 + \exp \{\eta \}}$