最大熵模型求解

最新推荐文章于 2024-01-22 14:40:42 发布

geter_CS

最新推荐文章于 2024-01-22 14:40:42 发布

阅读量583

点赞数

分类专栏：机器学习文章标签：最大熵模型最大熵模型求解

本文链接：https://blog.csdn.net/geter_CS/article/details/84585201

版权

机器学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

上一篇文章中详细介绍最大熵模型，这里我们讲一下其求解
最大熵模型的求解可以形式化为约束最优化问题：
$\begin{matrix} max H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)\\ P\in C\qquad\qquad\qquad\qquad\qquad\qquad\qquad \end{matrix}$ 约束 $\qquad\begin{matrix} E_{P}(f_i)=E_{\tilde{P}}(f_i)，i=1,2,3..n \\ \sum_{y}P(y|x)=1 \end{matrix}$
改为求解最小值问题：
$\begin{matrix} min -H(P)=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)\\ P\in C\qquad\qquad\qquad\qquad\qquad\qquad\qquad \end{matrix}$
使用拉格朗日乘子法来解决这个问题，引入拉格朗日乘子 $\lambda_0,\lambda_1,\lambda_2...\lambda_n$ ,定义拉格朗日函数为 $L(P,\lambda)$ ：
$L(P,\lambda)=-H(P)+\lambda_0\left(1-\sum_yP(y|x)\right)+\sum_{i=1}^n\lambda_i\left(E_{\tilde{P}}(f_i)-E_{P}(f_i)\right)$ 带入上一篇文章 $E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)$ 和 $E_{p}(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$ 有：
$\begin{matrix} L(P,\lambda)=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)+\lambda_0\left(1-\sum_yP(y|x)\right)\\ +\sum_{i=1}^n\lambda_i\left(\sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)\right) \end{matrix}$
最优化的原始问题是： $\begin{matrix} min \quad max \quad L(P,\lambda)\\ P\in C\quad \lambda\qquad\qquad\quad \end{matrix}$
为甚么这个优化问题要先求max再求min，因为条件中有
$E_{P}(f_i)-E_{\tilde{P}}(f_i)=0$ 和 $\sum_{y}P(y|x)-1=0$ ，若不满足这两个条件那么 $L(P,\lambda)$ 可能趋于无穷大或无穷小。或者可以这样理解，我们最终是要求最小值，而这个最小值应该是尽量大范围内的最小值，所以应该先求最大值，然后再求最小值。
对偶问题：
$\begin{matrix} max \quad min \quad L(P,\lambda)\\ \lambda\quad\quad P\in C\qquad\qquad \end{matrix}$
这里先求min，对 $L(P,\lambda)$ 求 $P (y ∣ x)$ 的偏导数：
$\begin{matrix}\frac{ \partial L(P,\lambda)}{ \partial P(y|x)}=\sum_{x,y}\tilde{P}(x)(log P(y|x)+1)-\sum_y(\lambda_0)-\sum_{x,y}(\tilde{P}(x)\sum_{i=1}^n\lambda_if_i(x,y))\\ =\sum_{x,y}\tilde{P}(x)\left(log P(y|x)+1-\lambda_0-\sum_{i=1}^n\lambda_if_i(x,y)\right) \end{matrix}$ 令偏导数等于0，解得： $P(y|x)=exp(\sum_{i=1}^n \lambda_if_i(x,y)+\lambda_0-1)=\frac{exp(\sum_{i=1}^n\lambda_if_i(x,y))}{exp(1-\lambda_0)}（1）$ 由于 $\sum_yP(y|x)=1$ 得 $P_\lambda(y|x)=\frac{1}{Z_\lambda(x)}\left(exp(\sum_{i=1}^n\lambda_if_i(x,y))\right)$ 其中， $Z_\lambda(x)=\sum_yexp(\sum_{i=1}^n\lambda_if_i(x,y))$ 称为规范化因子。将求得的 $P_\lambda(y|x)$ 带入 $L(P,\lambda)$ 中就是内部的最小化结果 $L(P_\lambda,\lambda)$ 。将求min的结果表示为：
$\Psi(\lambda)=\begin{matrix} min\quad L(P,\lambda)=L(P_\lambda,\lambda)\\ P\in C \qquad\qquad\qquad\qquad\quad \end{matrix}$ 称为对偶函数。将其解记为：
$P_\lambda=\begin{matrix} argmin\quad L(P,\lambda)=P_\lambda(y|x)\\ P\in C \qquad\qquad\qquad\qquad\quad \end{matrix}$
这一步的推导如下：
对（1）式两边同时加上 $\sum_y$ : $\sum_yP(y|x)=\sum_y\frac{exp(\sum_{i=1}^n\lambda_if_i(x,y))}{exp(1-\lambda_0)}$ ,由于 $\sum_yP(y|x)=1$ ，所以上式得： $1=\sum_y\frac{exp(\sum_{i=1}^n\lambda_if_i(x,y))}{exp(1-\lambda_0)}$ 此时分子和y无关，所以可以解出： $exp(1-\lambda_0)=\sum_yexp(\sum_{i=1}^n\lambda_if_i(x,y))$ 带入（1）式中，这就是这一步的推导。
接下来就是外部的极大化问题: $\begin{matrix} max \Psi(\lambda)\\ \lambda\quad\quad \end{matrix}$ ,将其解记为 $\lambda^*$ ： $\lambda^*=\begin{matrix} argmax \Psi(\lambda)\\ \lambda\quad\quad \end{matrix}$ 将求得的 $P_\lambda(y|x)$ 带入 $L(P,\lambda)$ 中就是内部的最小化结果 $L(P_\lambda,\lambda)$ : $\begin{matrix} \Psi(\lambda)=L(P_\lambda,\lambda)=\sum_{x,y}\tilde{P}(x)P_\lambda(y|x)logP_\lambda(y|x)\\ \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad+\sum_{i=1}^n\lambda_i\left(\sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P_\lambda(y|x)f_i(x,y)\right)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\lambda_if_i(x,y)+\sum_{x,y}\tilde{P}(x)P_\lambda(y|x)(logP_\lambda(y|x)-\sum_{i=1}^n\lambda_if_i(x,y))\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\lambda_if_i(x,y)-\sum_{x,y}\tilde{P}(x)P_\lambda(y|x)logZ_\lambda(x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\lambda_if_i(x,y)-\sum_{x}\tilde{P}(x)logZ_\lambda(x)\qquad\qquad(2) \end{matrix}$ 由于求 $P_\lambda(y|x)$ 使用 $\sum_yP(y|x)=1$ 所以 $\lambda_0\left(1-\sum_yP(y|x)\right)$ 就没有了。
以上就是对偶函数的表示，下面证明其与最大熵模型的极大似然估计(这篇文章中有讲极大似然估计)等价。已知训练数据的经验概率分布 $\tilde{P}(x,y)$ ，则条件概率分布 $P (Y ∣ X)$ 的对数似然函数表示为： $L_{\tilde{P}}(P)=log\prod _{x,y}P(y|x)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y)logP(y|x)$ ,带入 $P_\lambda$ 有: $\begin{matrix} L_{\tilde{P}}(P_\lambda)=\sum_{x,y}\tilde{P}(x,y)logP_\lambda(y|x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\lambda_if_i(x,y)-\sum_{x,y}\tilde{P}(x,y)logZ_\lambda(x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\lambda_if_i(x,y)-\sum_{x}\tilde{P}(x)logZ_\lambda(x) \end{matrix}$ 这里也使用 $\sum_yP(y|x)=1$ 。可以看出： $\Psi(\lambda)=L_{\tilde{P}}(P_\lambda)$ 所以最大熵模型的求解最终就是求解对数似然函数极大化或是对偶函数极大化。

下面我们用**梯度下降（SGD）**的方法求解这个优化，由于对数似然函数极大化与对偶函数极大化等价，所以我们就直接对对数似然函数 $L_{\tilde{P}}(P_\lambda)=\sum_{x,y}\tilde{P}(x,y)logP_\lambda(y|x)$ 求导，可得：
$\frac{\partial logP_\lambda}{\partial\lambda_i}=\sum_{x,y}f_i(x,y)-\sum_{x,y}\sum_{{y}'}P({y}'|x,\lambda)f_i(x,{y}')$
可以看出梯度等于训练数据分布的特征期望与模型特征期望的差。当梯度为0时，得到的概率分布刚好满足约束条件（这一部分可以看参考书3 $P_{353}$ ）。