最大熵模型

最新推荐文章于 2021-10-22 23:51:39 发布

得克特

最新推荐文章于 2021-10-22 23:51:39 发布

阅读量194

点赞数

分类专栏：数学之美文章标签：最大熵

本文链接：https://blog.csdn.net/weixin_40548136/article/details/119898903

版权

数学之美专栏收录该内容

21 篇文章 3 订阅

订阅专栏

本文深入解析了最大熵模型，从熵和条件熵概念出发，讲解了最大熵模型的构建过程，包括经验分布、约束条件的设定，以及如何通过拉格朗日乘子法求解。涉及了与逻辑回归的关系，以及连续性模型如指数分布和正太分布的应用实例。

摘要由CSDN通过智能技术生成

文章目录

熵

熵(entropy)是热力学中的概念，由香浓引入到信息论中。在信息论和概率统计中,熵用来表示随机变量不确定性的度量。
设 $X\in\{x_1,x_2,...,x_n\}$ 为一个离散随机变量，其概率分布为 $p(X=x_i)=p_i, i=1,2,...,n$ ，则 $X$ 的熵为 $H(X)=-\sum_{i=1}^np_i\log{p_i}, 当p_i=0时，定义0\log0=0$
$H (X)$ 越大，表示 $X$ 不确定性越大。

条件熵

设 $X\in\{x_1,x_2,...,x_n\}$ ， $Y\in\{y_1,y_2,...,x_m\}$ 为离线随机变量，在已知 $X$ 的条件下， $Y$ 的条件熵(conditional entropy)定义为：
$H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i)=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_j|x_i)\log{p(y_j|x_i)}$
表示已知 $X$ 的条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望。

最大熵模型

假设分类模型是一个条件概率分布 $P (Y ∣ X)$ ， $X$ 表示输入， $Y$ 表示输出。这个模型表示的是对于给定的输入 $X$ ，以条件概率 $P (Y ∣ X)$ 输出 $Y$ 。
给定一个训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,我们的目标就是利用最大熵原理选择最好的分类模型。最大熵模型包含两部分：熵和约束条件。关于约束，从训练数据T中抽取若干特征，然后要求这些特征在训练集 $T$ 上关于经验分布的期望与它们在模型中关于 $p (x, y)$ 的数学期望相等，这样，一个特征就对应一个约束。

经验分布

经验分布是指通过训练数据T上进行统计得到的分布。我们需要考察两个经验分布,分别是 $x, y$ 的联合经验分布以及 $x$ 的分布。其定义如下:
$\tilde{p}(x)=\frac{count(x)}{N}, \tilde{p}(x,y)=\frac{count(x,y)}{N}$

约束条件

对于任意的特征函数 $f$ ，记 $E_{\tilde{p}}(f)$ 表示f在训练数据T上关于 $p (x, y)$ 的数学期望。
$E_p(f)$ 表示f在模型上关于p(x,y)的数学期望。按照期望的定义,有:
$E_{\tilde{p}}(f)=\sum_{x,y}\tilde{p}(x,y)f(x,y)\\ E_{p}(f)=\sum_{x,y}p(x,y)f(x,y)$
我们需要注意的是 $p (x, y)$ 是未知的。并且我们建模的目标是 $p (y ∣ x)$ ，因此我们利用Bayes定理得到 $p (x, y) = p (x) p (y ∣ x)$ 。
此时， $p (x)$ 也还是未知，我们可以使用经验分布得到 $\tilde{p}(x)$ 对 $p (x)$ 进行近似。
$E_{p}(f)=\sum_{x,y}\tilde{p}(x)p(y|x)f(x,y)$
对于概率分布 $p (y ∣ x)$ ，我们希望特征 $f$ 的期望应该和从训练数据中得到的特征期望是一样的。因此,可以提出约束：
$E_{{p}}(f)=E_{\tilde{p}}(f)\\ \sum_{x,y}\tilde{p}(x)p(y|x)f(x,y)=\sum_{x,y}\tilde{p}(x,y)f(x,y)$
假设从训练数据抽取了n个特征，则有n个特征函数和n个约束条件
$C_i: E_p(f_i)=E_{\tilde{p}}(f_i)=\tau_i$

最大熵模型

已知特征函数和约束条件，我们将熵的概念应用到条件分布上面去。
$H(p(y|x))=-\sum_{x,y}\tilde{p}(x)p(y|x)\log{p(y|x)}$
至此，我们可以给出最大熵模型的完整描述：
对于给定的数据集 $T$ ，特征函数 $f_i(x,y), i=1,…,n$ ，最大熵模型就是求解模型集合C中条件熵最大的模型。
$min_{p\in C}-H(p)=\sum_{x,y}\tilde{p}(x)p(y|x)\log{p(y|x)}\\ s.t. \sum_{x,y}\tilde{p}(x)p(y|x)f_i(x,y)=\tau_i\\ \sum_yp(y|x)=1$

求解最大熵模型

最大熵模型的学习过程就是求解最大熵模型的过程。求解约束最优化问题所得的解就是最大熵模型学习的解。
利用拉格朗日乘子法将最大熵模型由一个带约束的最优化问题转化为一个与之等价的无约束的最优化问题，它是一个min max问题。
利用拉格朗日对偶问题的等价性，将原始问题转换为一个max min问题。即：
$min_{p\in{C}}max_\lambda L(p,\lambda) => max_{\lambda}min_{p\in C}L(p,\lambda)$

极小值问题求解

$\Psi(\lambda)=min_{p\in C}L(p,\lambda)=L(p_{\lambda,\lambda})\\ p_{\lambda}=argmin_{p\in C}L(p,\lambda)$
组合拉格朗日函数
$L(p,\lambda)=-H(p)+\lambda_{0}(1-\sum_{x,y}p(y|x))\tilde p(x))+\sum_{i=1}^n\lambda_i(E_{\tilde p}(f_i)-E_p(f_i))\\ =\sum_{x,y}\tilde P(x)P(y|x)\log{P(y|x)}+\lambda_0(1-\sum_{x,y}P(y|x)\tilde P(x))+\sum_{i=1}^n\lambda_i(\sum_{x,y}\tilde P(x,y)f_i(x,y)-\sum_{x,y}\tilde P(x)p(y|x)f_i(x,y))$

$L(p,\lambda)$ 关于 $P (y ∣ x)$ 的偏导
$\frac{\partial{L}}{\partial{P(y|x)}}=\tilde P(x)(\log{P(y|x)}+1)-\lambda_0\tilde{P}(x)-\tilde{P}(x)\sum_{i=1}^n\lambda_if_i(x,y)\\ =\tilde{P}(x)(\log{P(y|x)}+1-\lambda_0-\sum_{i=1}^n\lambda_if_i(x,y))$
令上式等于0，由 $\tilde{P}(x)>0$ ，得
$\log{P(y|x)}+1-\lambda_0-\sum_{i=1}^n\lambda_if_i(x,y)=0$
解得，
$P(y|x)=\frac{\exp^{(\sum_{i=1}^n\lambda_if_i(x,y))}}{\exp^{1-\lambda_0}}$
由 $\sum_y(P(y|x))=1$ 得
$\sum_yP(y|x)=\frac{\sum_y\exp(\sum_{x=1}^{n}\lambda_if_i(x,y))}{\exp(1-\lambda_0)}=1\\ \exp(1-\lambda_0)=\sum_y\exp(\sum_{x=1}^{n}\lambda_if_i(x,y))$
得
$P(y|x)=\frac{\exp(\sum_{i=1}^{n}\lambda_if_i(x,y))}{\sum_y\exp(\sum_{i=1}^{n}\lambda_if_i(x,y))}$

极大值问题求解

得到内部极小问题的 $p$ 后，进一步求解外层的极大值问题： $max_{\lambda}\Psi(\lambda)$
$\lambda^*=argmax_{\lambda}\Psi(\lambda)(x)$
将 $\log{p_{\lambda}(y|x)}=\sum_{i=1}^n\lambda_if_i(x,y)-\log{Z_{\lambda}}$ 带入求解
$\Psi(\lambda)=L(p_{\lambda,\lambda})\\ =\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)\log{p_{\lambda}(y|x)}+\sum_{i=1}^n\lambda{_i}(\tau_i-\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)f_i(x,y))\\ =\sum_{i=1}^n\lambda_i\tau_i+\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)(\log{p_{\lambda}}(y|x))-\sum_{i=1}^n\lambda_if_i(x,y))\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_{x,y}\tilde{p}(x)p_{\lambda}(y|x)\log{Z_{\lambda}(x)}\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_{x}\tilde{p}(x)\log{Z_{\lambda}(x)}\sum_yp_{\lambda}(y|x)\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_x\tilde{p}(x)\log{Z_\lambda}(x)$
这里特征期望 $\tau_i=\sum_{x,y}\tilde{p}(x,y)f_i(x,y)$ 对于给定的训练集为一个常数。

极大似然估计

下面证明一下在求得极小值后，极大值的求解就是 $p (y ∣ x)$ 的对数似然最大化。
似然函数 $L(p_{\lambda})=\prod_{x,y}p_{\lambda}(y|x)$
求解上式似然函数等价于求解 $L_{\tilde{p}}(p_{\lambda}(y|x))=\log(\prod_{x,y}p_{\lambda}(y|x)^{\tilde{p}(x,y)})=\sum_{x,y}\tilde{p}(x,y)\log{p_{\lambda}(y|x)}$
将 $\log{p_{\lambda}(y|x)}=\sum_{i=1}^n\lambda_if_i(x,y)-\log{Z_{\lambda}}$ 带入求解
$L_{\tilde{p}}(p_{\lambda}(y|x))=\sum_{x,y}\tilde{p}(x,y)(\sum_{i=1}^n{\lambda_i}f_i(x,y)-\log{Z_{\lambda}(x)})\\ =\sum_{i=1}^n\lambda_i\sum_{x,y}\tilde{p}(x,y)f_i(x,y)-\sum_{x,y}\tilde{p}(x,y)\log{Z_{\lambda}(x)}\\ =\sum_{i=1}^n\lambda_i\tau_i-\sum_x\tilde{p}(x)\log{Z_\lambda(x)}$
与上面极大值问题求解式子一样，从最大熵的思想出发得出的最大熵模型，最后的最大化求解就是在求 $P (y ∣ x)$ 的对数似然最大化。逻辑回归也是在求条件概率分布关于样本数据的对数似然最大化。二者唯一的不同就是条件概率分布的表示形式不同。

最大熵模型与逻辑回归的关系

假设当前一个最大熵模型类别 $y$ 的取值只有两个 $y_0,y_1$ ，输入的 $x$ 有 $n$ 种取值，定义 $n$ 个特征函数：
$f_i(x,y) = \begin{cases} x_i, & \text{if $y=y_1$} \\ 0, & \text{else} \end{cases}$
则对于 $y_1$
$p(y_1|x)=\frac{\exp{\sum_{i=1}^nw_ix_i}}{1+\exp{\sum_{i=1}^nw_ix_i}}$
对于 $y_0$
$p(y_0|x)=\frac{1}{1+\exp{\sum_{i=1}^nw_ix_i}}$
这就是逻辑回归！

连续性最大熵模型的一些例子

我们将上述的条件最大熵模型简化为一般的最大熵模型，求解概率 $p (x)$ ，则最大熵模型为
$L(p(x),\lambda)-\int p(x)\log{p(x)}dx-\lambda_0(\int p(x)dx-1)-\lambda_1(\int p(x)f_1(x)dx-\tau_1)-\cdots-\lambda_k(\int p(x)f_k(x)dx-\tau_k)$
求解：
$\frac{\partial{L(p(x),\lambda)}}{\partial{p(x)}}=[\log{p(x)}+1]+\lambda_0+\lambda_1f_1(x)+\lambda_2f_2(x)+\cdots+\lambda_kf_k(x)=0$
与上述离散的结果类似，利用 $\int{p(x)}dx=1$ ，解得：
$p(x)=\frac{1}{Z}\exp({-\sum_{i=1}^k}\lambda_if_i(x))\\[2ex] Z=\int \exp(-\lambda_if_i(x))dx$
需要将 $p (x)$ 带入
$\int p(x)f_i(x)dx-\tau_i=0, i=1,2,\dots,k$
求解各个参数 $\lambda_i$

指数分布

考虑只有一个约束条件 $\int{p(x)x}=\tau(x\geq0)$ ，即均值为 $\tau$
$p(x)=\frac{1}{Z}\exp(-\lambda x)$
归一化因子 $Z=\int_0^\infty\exp(-\lambda x)dx=\cfrac{1}{\lambda}$
根据约束条件求解:
$\tau=\int_0^\infty{\lambda\exp(-\lambda x)}xdx=\cfrac{1}{\lambda}$
所以得到指数分布
$p(x)=\frac{1}{\tau}\exp(-\frac{x}{\tau})$

正太分布

考虑两个约束条件 $\int{p(x)x}=\tau_1, \int{p(x)x^2}=\tau_2$ ，即已知均值和方差，则 $p(x)=\frac{1}{Z}\exp(-\lambda_1x-\lambda_2x^2)$
归一化因子
$\begin{aligned} \int_{-\infty}^{\infty} \exp\left(-\lambda_1 x-\lambda_2 x^2\right) dx &= \int_{-\infty}^{\infty} \exp[-\lambda_2\left(x+\frac{\lambda_1}{2\lambda_2}\right)^2+\frac{\lambda_1^2}{4\lambda_2}]dx\\ &=\exp\left(\frac{\lambda_1^2}{4\lambda_2}\right) \int_{-\infty}^{\infty} \exp\left(-\lambda_2t^2\right)dt\\ &=\sqrt{\frac{\pi}{\lambda_2}}\exp\left(\frac{\lambda_1^2}{4\lambda_2}\right) \end{aligned}$
概率密度函数
$p(x)=\sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right)$
两个约束
$\begin{aligned}&\tau_1=\int_{-\infty}^{\infty} \sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right) x dx =-\frac{\lambda_1}{2\lambda_2}\\ &\tau_2=\int_{-\infty}^{\infty} \sqrt{\frac{\lambda_2}{\pi}}\exp\left(-\frac{\lambda_1^2}{4\lambda_2}\right) \exp\left(-\lambda_1 x-\lambda_2 x^2\right) x^2 dx =\frac{\lambda_1^2+2 \lambda_2}{4 \lambda_2^2} \end{aligned}$
将结果带入概率密度函数
$p(x)=\sqrt{\frac{1}{2\pi(\tau_2-\tau_1^2)}}\exp\left(-\frac{(x-\tau_1)^2}{2(\tau_2-\tau_1^2)}\right)\tag{36}$
这里 $\tau_2-\tau_1^2$ 正好是方差，因此结果正好是均值为 $\tau_1$ 、方差为 $\tau_2-\tau_1^2$ 的正态分布！！这又成为了正态分布的一个来源！