最大熵模型（二）

最新推荐文章于 2021-03-17 17:50:05 发布

初沏的茶

最新推荐文章于 2021-03-17 17:50:05 发布

阅读量306

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ChuQiDeCha/article/details/80470488

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

最大熵模型 - 最大熵模型的学习

对于给定的训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdot\cdot\cdot,(x_{N},y_{N})\}$ 以及特征函数 ${f_{i}(x,y)}$ ，最大熵模型的学习等价于约束最优化问题：

max p \in C H (p) s . t . E p (f i) \sum y p (y | x) = - \sum x, y p ˜ (x) p (y | x) l o g p (y | x) = E p ˜ (f i) = 1

$\begin{align*} \max_{p \in C} \quad H(p)\quad\quad&=-\sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) \\ s.t. \quad E_{p}(f_{i})\quad\quad&=E_{\widetilde{p}}(f_{i}) \\ \sum_{y}p(y|x)&=1 \end{align*}$
将求最大值改为等价求最小值问题：

min p \in C - H (p) s . t . E p (f i) \sum y p (y | x) = s u m x, y p ˜ (x) p (y | x) l o g p (y | x) = E p ˜ (f i) = 1

$\begin{align*} \min_{p \in C} \quad -H(p)\quad\quad&=sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) \\ s.t. \quad E_{p}(f_{i})\quad\quad&=E_{\widetilde{p}}(f_{i}) \\ \sum_{y}p(y|x)&=1 \end{align*}$
引进拉格朗日乘子

w0,w1,⋅⋅⋅,wN w 0 , w 1 , ⋅ ⋅ ⋅ , w N $w_0,w_1,\cdot\cdot\cdot,w_N$ ，定义拉格朗日函数：

L (P, w) = - H (p) + w 0 (1 - \sum y p (y | x)) + \sum i = 1 n w i (E p ˜ (f i) - E p (f i)) = \sum x, y p ˜ (x) p (y | x) l o g p (y | x) + w 0 (1 - \sum y p (y | x)) + \sum i = 1 n w i (\sum x, y p ˜ (x, y) f i (x, y) - \sum x, y p ˜ (x) p (y | x) f i (x, y))

$\begin{align*} L(P,w) &= -H(p) + w_0(1-\sum_{y}p(y|x)) + \sum_{i=1}^{n}w_i(E_{\widetilde{p}}(f_{i})-E_{p}(f_{i})) \\ &= \sum_{x,y}\widetilde{p}(x)p(y|x)logp(y|x) + w_0(1-\sum_{y}p(y|x)) + \sum_{i=1}^{n}w_i(\sum_{x,y}\widetilde{p}(x,y)f_i(x,y)-\sum_{x,y}\widetilde{p}(x)p(y|x)f_i(x,y)) \end{align*}$
最优化问题的原始问题是：

min P \in C max w L (P, w)

$\min_{P \in C}\max_{w}L(P,w)$
对偶问题为：

max w min P \in C L (P, w)

$\max_{w}\min_{P \in C}L(P,w)$
因为拉格朗日函数

L(P,w) L ( P , w ) $L(P,w)$ 是

P P $P$ 的凸函数，原始问题与对偶问题的解是等价的。
首先计算内部计算极小值，拉个朗日函数

L (P, w)

$L(P,w)$ 对

P(Y|X) P ( Y | X ) $P(Y|X)$ 的偏倒数：

\partial L ( P , w ) \partial P = \sum x, y p ˜ (x) (1 + l o g p (y | x)) - w 0 - \sum i = 1 n w i (\sum x, y p ˜ (x) f i (x, y)) = \sum x, y p ˜ (x) (1 + l o g p (y | x)) - \sum x, y p ˜ (x) w 0 - \sum x, y p ˜ (x) (\sum i = 1 n w i f i (x, y)) = \sum x, y p ˜ (x) (1 + l o g p (y | x) - w 0 - \sum i = 1 N w i f i (x, y))

$\begin{align*} \frac{\partial L(P,w)}{\partial P} &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)) - w_0 - \sum_{i=1}^{n}w_i(\sum_{x,y}\widetilde{p}(x)f_i(x,y)) \\ &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)) -\sum_{x,y}\widetilde{p}(x) w_0 - \sum_{x,y}\widetilde{p}(x)(\sum_{i=1}^{n}w_if_i(x,y)) \\ &= \sum_{x,y}\widetilde{p}(x)(1+logp(y|x)-w_0 - \sum_{i=1}^{N}w_if_i(x,y)) \end{align*}$
注： $w_0=w_0 \times 1 = w_0 \sum_{x}\widetilde{p}(x)= \sum_{x,y}\widetilde{p}(x) w_0$
令偏导数为0，在