机器学习笔记之指数族分布——最大熵角度观察指数族分布(二)最大熵定理与指数族分布的关系

静静的喝酒

已于 2023-07-21 09:38:50 修改

阅读量1.2k

点赞数 2

分类专栏：机器学习文章标签：最大熵定理指数族分布拉格朗日乘数法经验分布概率模型与概率分布

于 2022-08-10 16:39:24 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126261442

版权

机器学习笔记之指数族分布——最大熵原理与指数族分布的关系

引言

引言

上一节介绍了熵的基本概念以及最大熵思想，本节将介绍最大熵原理与指数族分布之间的关联关系。

回顾：最大熵思想示例

最大熵思想本质上是探究概率分布的一种工具，基于一个概率模型 $\mathcal P(x \mid \theta)$ ，如果其概率分布未知(没有任何约束概率分布的条件)、仅通过最大熵思想探究概率分布，发现满足熵最大的概率分布是均匀分布；
虽然没有任何约束条件，但是‘概率分布自身定义’还是要遵守的。
$\sum_{i=1}^k \mathcal P \left(x^{(j)} = x_i \right) = 1 \quad x^{(j)} \in \mathcal X$
但实际情况可能是：概率分布依然是未知，但存在关于概率分布的约束条件。这意味着：仅仅使用最大熵思想对概率分布进行表述是不完整的。此时需要引入一个新的概念：最大熵原理。

最大熵原理

最大熵原理主要针对有约束条件的概率分布进行求解。具体表述：在概率分布存在约束条件的情况下，满足约束条件下熵最大的分布就是求解的概率分布。

约束条件与经验概率分布

观察上面表述，什么叫做 概率分布存在约束条件？换句话说，这个约束条件是从哪里体现出来的？

我们在极大似然估计与最大后验概率估计中介绍过： $\mathcal P(\mathcal X \mid \theta)$ 既可以看作概率分布，也可以看作概率模型 $\mathcal P$ 以模型参数 $\theta$ 生成了大量样本,从而产生数据集合 $\mathcal X$ 。
模糊‘概率分布’与‘概率模型’之间的界限;

因此，概率分布的约束条件，或者说概率分布约束条件的表现形式自然是 一个个具体的样本。假设一个数据集合 $\mathcal X$ 包含 $N$ 个样本：
$\mathcal X = \left\{x^{(1)},x^{(2)},\cdots,x^{(N)} \right\}$

仅仅是有样本是不够的，如何将这些样本转换为约束概率分布的条件？引入一个概念：经验概率分布( $\text{Empirical Probability Distribution}$ )。

经验概率分布是指特定事件发生的次数占总体实验样本的比例。经验概率分布的概率密度函数表示如下：
$\hat {\mathcal P}(x^{(j)} = x_i) = \frac{\text{count}(x_i)}{N}\quad i=1,2,\cdots,k;x^{(j)} \in \mathcal X$

其中 $x_i$ 表示样本的第 $i$ 个值， $\text{count}(x_i)$ 表示统计样本第 $i$ 个值出现的次数。
需要注意的是:这里 $x_i$ 是指随机变量，而不是具体样本。
示例：数据集合 $\mathcal X_0$ 共包含6个样本：
$\mathcal X_0 = \{4,5,5,6,6,6\}$
上述集合共包含3种值：
$x_1 = 4,x_2 = 5,x_3 = 6$
则有如下的经验概率分布：
$\hat {\mathcal P}(\mathcal X_0) = \begin{pmatrix} \hat {\mathcal P}(x^{(j)} = x_1) \\ \hat {\mathcal P}(x^{(j)} = x_2) \\ \hat {\mathcal P}(x^{(j)} = x_3) \end{pmatrix} = \begin{pmatrix} 0.16 \\ 0.33 \\ 0.5 \end{pmatrix} \quad x^{(j)} \in \mathcal X_0$

这种概率分布最显著的特点是 该分布是单纯通过实际实验归纳得到，不掺杂理论取样。即计算概率分布使用的样本，均为真实样本。
在真实环境中，绝大多数情况都是通过有限样本进行归纳(经验分布)去逼近理想状态下的真实分布，弊端是‘经验分布’和‘真实分布’之间总是存在差距;优势在于简化运算，概率分布结果只与有限样本相关。

引入经验概率分布的背后意义在于概率分布完全取决于数据集合 $\mathcal X$ 。

经验概率分布本质上依然是概率分布，通过该概率分布可以求解期望、方差等 数字特征。定义 $\hat {\mathcal P}(x^{(j)}=x_i)$ 为某样本 $x^{(j)}$ 等于某具体数值 $x_i$ 的概率密度函数：
$x^{(j)}$ 表示为数据集合 $\mathcal X$ 内的任意一个样本;这里关于 $\mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X]$ 是描述随机变量的期望信息。

$\begin{aligned} \mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X] & = \sum_{x_i \in \mathcal X} \hat {\mathcal P}(x^{(j)} = x_i) \cdot x_i \quad i=1,2,\cdots,k \\ \text{Var}_{\hat {\mathcal P}(\mathcal X)}[\mathcal X] & = \mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X^2] - \left[\mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X]\right]^2 \end{aligned}$