最大熵（二）| 约束最优化问题（拉格朗日对偶性）+最大熵模型的极大似然估计 | 《统计学习方法》学习笔记（二十四）

最新推荐文章于 2022-07-21 22:29:15 发布

Sany 何灿

最新推荐文章于 2022-07-21 22:29:15 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习理论

本文链接：https://blog.csdn.net/SanyHo/article/details/106226396

版权

机器学习理论专栏收录该内容

30 篇文章 13 订阅

订阅专栏

1. 最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。

对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 以及特征函数 $f_i(x,y),i=1,2,\cdots,n$ ，最大熵模型的学习等价于约束最优化问题：
$max_{P\in C}\quad H(P)=-\sum_{x,y}\hat P(x)P(y|x)logP(y|x) \\ s.t. \quad E_p(f_i)=E_{\hat P}(f_i),\quad i=1,2,\cdots,n \\ \sum_{y}P(y|x)=1$
按照最优化问题的习惯，将求最大值问题改写为等价的求最小值问题：
$min_{p\in C}-H(P)=\sum_{x,y}\hat P(x)P(y|x)logP(y|x) \quad (7)\\ s.t. \quad E_P(f_i)-E_{\hat P}(f_i)=0, \quad i=1,2,\cdots,n \quad (8)\\ \sum_y P(y|x)=1 \quad (9)$
求解约束最优化问题（7）~（9），所得出的解，就是最大熵模型学习的解。下面给出具体推导

这里，将约束最优的原始问题转化为无约束最优化的对偶问题。通过求解对偶问题求原始问题。

首先，引进拉格朗日乘子 $w_0,w_1,w_2,\cdots,w_n$ ，定义拉格朗日函数 $L (P, w)$ :
$L(P,w)\equiv -H(P)+w_0(1-\sum_yP(y|x))+\sum_{i=1}^nw_i(E_{\hat P}(f_i)-E_p(f_i)) \\ =\sum_{x,y}\hat P(x)P(y|x)logP(y|x)+w_0(1-\sum_yP(y|x))+\sum_{i=1}^nw_i(\sum_{x,y}\hat P(x,y)f_i(x,y)-\sum_{x,y}\hat P(x)P(y|x)f_i(x,y)) \quad (a)$
最优化的原始问题是
$min_{P\in C}max_wL(P,w) \tag{10}$
对偶问题是
$max_wmin_{P\in C}L(P,w) \tag{11}$
由于拉格朗日函数 $L (P, w)$ 是P的凸函数，原始问题（10）的解与对偶问题（11）的解是等价的。这样，可以通过求解对偶问题（11）来求解原始问题（10）。

首先，求解对偶问题（11）内部的极小化问题 $min_{P\in C}L(p,w)$ 。 $min_{P\in C}L(P,w)$ 是w的函数，将其记作
$\Psi(w)=min_{P\in C}L(P,w)=L(P_w,w) \tag{b}$
$\Psi(w)$ 称为对偶函数。同时，将其解记作
$P_w=arg\,min_{P\in C}L(P,w)=P_w(y|x)$
具体地，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导数
$\frac{\partial L(P,w)}{\partial P（y|x）}=\sum_{x,y}\hat P(x)(logP(y|x)+1)-\sum_yw_0-\sum_{x,y}(\hat P(x)\sum_{i=1}^nw_if_i(x,y)) \\ =\sum_{x,y}\hat P(x)(logP(y|x)+1-w_0-\sum_{i=1}^nw_if_i(x,y))$
令偏导数等于0，在 $\hat p(x)>0$ 的情况下，解得
$P(y|x)=exp(\sum_{i=1}^nw_if_i(x,y)+w_0-1)=\frac{exp(\sum_{i=1}^nw_if_i(x,y))}{exp(1-w_0)}$
由于 $\sum_yP(y|x)=1$ ，得
$P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_{i=1}^nw_if_i(x,y)) \tag{12}$
其中，
$Z_w(x)=\sum_yexp(\sum_{i-1}^nw_if_i(x,y)) \tag{13}$
$Z_w(x)$ 称为规范化因子； $f_i(x,y)$ 是特征函数； $w_i$ 是特征的权值。由式（12）、式（13）表示的模型 $P_w=P_w(y|x)$ 就是最大熵模型。这里，w是最大熵模型中的参数向量。

之后，求解对偶问题外部的极大化问题
$max_w\Psi(w)$
将其解即为 $w^*$ ，即
$w^*=arg\,max_w\Psi(w)$
这就是说，可以应用最优化算法求对偶函数 $\Psi(w)$ 的极大化，得到 $w^*$ ，用来表示 $P^*\in C$ 。这里， $P^*=P_{w^*}=P_{w^*}(y|x)$ 是学习到的最优模型（最大熵模型）也就是说，最大熵模型的学习归结为对偶函数 $\Psi(w)$ 的极大化。

例：假设随机变量X有5个取值 ${A,B,C,D,E\}$ ，要估计取各个值的概率 $P (A), P (B), P (C), P (D), P (E)$ .学习其中的最大熵模型。已知概率值的约束条件 $P(A)+P(B)=\frac{3}{10}$

解：为了方便，分别以 $y_1,y_2,y_3,y_4,y_5$ 表示A，B，C，D和E，于是最大熵模型学习的最优化问题是
$\,-H(P)=\sum_{i=1}^5P(y_i)logP(y_i) \\ s.t. \quad P(y_1)+P(y_2)=\hat P(y_1)+\hat P(y_2)=\frac{3}{10} \\ \sum_{i=1}^5P(y_i)=\sum_{i=1}^5\hat P(y_i)=1$
引进拉格朗日乘子 $w_0,w_1$ ，定义拉格朗日函数
$L(P,w)=\sum_{i=1}^5P(y_i)logP(y_i)+w_l(P(y_1)+P(y_2)-\frac{3}{10})+w_0(\sum_{i=1}^5P(y_i)-1)$
根据拉格朗日对偶性，可以通过求解对偶最优化问题得到原始最优化问题的解，所以求解
$max_w\,min_pL(P,w)$
首先求解 $L (P, w)$ 关于P的极小化问题。为此，固定 $w_0,w_1$ ，求偏导数：
$\frac{\partial L(P,w)}{\partial P(y_1)}=1+logP(y_1)+w_1+w_0 \\ \frac{\partial L(P,w)}{\partial P(y_2)}=1+logP(y_2)+w_1+w_0 \\ \frac{\partial L(P,w)}{\partial P(y_3)}=1+logP(y_3)+w_0 \\ \frac{\partial L(P,w)}{\partial P(y_4)}=1+logP(y_4)+w_0 \\ \frac{\partial L(P,w)}{\partial P(y_5)}=1+logP(y_5)+w_0 \\$
令各偏导数等于0，解得
$P(y_1)=P(y_2)=e^{-w_1-w_0-1} \\ P(y_3)=P(y_4)=P(y_5)=e^{-w_0-1}$
于是
$min_PL(P,w)=L(P_w,w)=-2e^{-w_1-w_0-1}-3e^{-w_0-1}-\frac{3}{10}w_1-w_0$
再求解 $L(P_w,w)$ 关于w的极大化问题：
$max_wL(P_w,w)=-2e^{-w_1-w_0-1}-3e^{-w_0-1}-\frac{3}{10}w_1-w_0$
分别求 $L(P_w,w)$ 对 $w_0,w_1$ 的偏导数并令其为0，得到
$e^{-w_1-w_0-1}=\frac{3}{20} \\ e^{-w_0-1}=\frac{7}{30}$
于是得到所要求的的概率分布为
$P(y_1)=P(y_2)=\frac{3}{20} \\ P(y_3)=P(y_4)=P(y_5)=\frac{7}{30}$

2. 极大似然估计

从以上最大熵模型学习中可以看出，最大熵模型是由式（12）、式（13）表示的条件概率分布。下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。

已知训练数据的经验概率分布 $\hat P(X,Y)$ ，条件概率分布 $P (Y ∣ X)$ 的对数似然函数表示为
$L_{\hat P}(P_w)=log\prod_{x,y}P(y|x)^{\hat P(x,y)}=\sum_{x,y}\hat P(x,y)logP(y|x)$
当条件概率分布 $P (y ∣ x)$ 是最大熵模型（12）和（13）时，对数似然函数 $L_{\hat p}(P_w)$ 为
$L_{\hat P}(P_w)=\sum_{x,y}\hat PlogP(y|x) \\ =\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x,y}\hat P(x,y)logZ_w(x) \\ =\sum_{x,y}\hat P(x,y)\sum_{i=1}^n w_if_i(x,y)-\sum_x\hat P(x)logZ_w(x) \quad (14)$
再看对偶函数 $\Psi(w)$ 。由式（a）及式（b）可得
$\Psi(w)=\sum_{x,y}\hat P(x)P_w(y|x)logP_w(y|x) + \sum_{i=1}^nw_i(\sum_{x,y}\hat P(x,y)f_i(x,y)-\sum_{x,y}\hat P(x)P_w(y|x)f_i(x,y)) \\ =\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)+\sum_{x,y}\hat P(x)P_w(y|x)(logP_w(y|x)-\sum_{i=1}^nw_if_i(x,y)) \\ =\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x,y}\hat P(x)P_w(y|x)logZ_w(x) \\ =\sum_{x,y}\hat P(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_x\hat P(x)logZ_w(x) \quad(15)$
最后一步用到 $\sum_yP(y|x)=1$

比较式（14）和式（15），可得
$\Psi(w)=L_{\hat P}(P_w)$
既然对偶函数 $\Psi(w)$ 等价于对数似然函数 $L_{\hat P}(P_w)$ ，于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计这一事实。

这样，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更一般的形式。
$P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_{i=1}^nw_if_i(x,y))$
其中，
$Z_w(x)=\sum_yexp(\sum_{i=1}^nw_if_i(x,y))$
这里， $x\in \bold R^n$ 为输入， $y\in \{1,2,\cdots,K\}$ 为输出， $w\in \bold R^n$ 为权值向量， $f_i(x,y),i=1,2,\cdots,n$ 为任意实值特征函数。