最大熵（一）

最新推荐文章于 2024-08-11 11:11:09 发布

march_on

最新推荐文章于 2024-08-11 11:11:09 发布

阅读量3k

点赞数

分类专栏： machine learning 文章标签：最大熵

本文链接：https://blog.csdn.net/march_on/article/details/49777525

版权

machine learning 专栏收录该内容

21 篇文章

订阅专栏

熵的定义

H (P) = - \sum x P (x) l o g P (x)

$H(P)=-\sum_x P(x)logP(x)$
熵的范围

0 \leq H (p) \leq l o g | X | | X | 是 X 的 取 值 个 数 。

$0\le H(p)\le log|X|\\ |X|是X的取值个数。$

熵大于0很显然。下面证明后半部分

0 \leq K L (p | u) = \sum x p (x) l o g p ( x ) u ( x ) = \sum x p (x) l o g p (x) - \sum x p (x) l o g u (x) = - H (x) + l o g | X |

$0 \le KL(p|u)=\sum_x p(x)log\frac{p(x)}{u(x)}\\ =\sum_x p(x)logp(x)-\sum_x p(x)log u(x)=-H(x)+log|X|$
即

0 \leq - H (x) + l o g | X |

$0 \le -H(x)+log|X|$
则

H (x) \leq l o g | X |

$H(x)\le log|X|$

其中, $KL(p|u)$ 是KL divergence，表示概率分布p和u之间的相似程度，也叫相对熵(relative entropy)。定义如下

K L (p | q) = \sum k = 1 K p k l o g p k q k

$KL(p|q)=\sum_{k=1}^K p_k log\frac{p_k}{q_k}$
这里的u定义为均匀分布，即

u(x)=1/|X| $u(x)=1/|X|$ 。

以上证明过程来自MLAPP 第二章。
上述证明说明均匀分布的熵最大。
其实后半部分的证明可以直接用拉格朗日法，约束是概率之和为1，对拉格朗日函数求偏导，令偏导为0，得到每个概率的值。然后再求此时的熵就得到相应的最大值了。

最大熵原理认为在所有满足条件的模型中熵最大的模型是最优的。将最大熵原理应用到分类上就是最大熵模型了。

在分类时我们的求解目标是后验分布 $P(y|x)$ 。
假设满足所有约束条件的模型集合为C,定义在条件概率分布p(y|x)上的条件熵为

H (P) = - \sum x, y P ̂ (x) P (y | x) l o g P (y | x)

$H(P)=-\sum_{x,y}\hat P(x)P(y|x)log P(y|x)$

最大熵模型就是集合C中条件熵 $H(P)$ 最大的模型。

那么最大熵模型都有哪些约束条件呢
首先定义特征函数f(x,y)

f (x ， y) = {10 {x 与 y 满 足 某 个 事 实} {否 则}

$f(x，y)=\cases{ {1}&{x与y满足某个事实} \\{0}&{否则} }$
特征函数关于经验分布

P̂ (x,y) $\hat P(x,y)$ 的期望值

Ep̂ (f) $E_{\hat p}(f)$ 定义为

E p ̂ (f) = \sum x, y p ̂ (x, y) f (x, y)

$E_{\hat p }(f)=\sum_{x,y}\hat p(x,y) f(x,y)$

特征函数关于模型 $p(y|x)$ 与经验分布 $\hat p (x)$ 的期望 $E_p (f)$ 定义为

E p (f) = \sum x, y p ̂ (x) p (y | x) f (x, y)

$E_p(f)=\sum_{x,y}\hat p(x) p(y|x)f(x,y)$

最大熵模型的约束条件就是

E p ̂ (f i) = E p (f i) i = 1, 2, . . ., n

$E_{\hat p}(f_i)=E_p (f_i) i=1,2,...,n$

这个约束条件的含义就是模型跟数据表达的信息是一致的。

最大熵模型的学习就是满足以上条件的约束最优化问题，定义如下：

m a x p \in C H (P) = - \sum x, y P ̂ (x) P (y | x) l o g P (y | x) s . t . E p ̂ (f i) = E p (f i) i = 1, 2, . . ., n \sum y P (y | x) = 1

$max_{p\in C} H(P)=-\sum_{x,y}\hat P(x)P(y|x)log P(y|x)\\ s.t. E_{\hat p}(f_i)=E_p (f_i) i=1,2,...,n\\ \sum_y P(y|x)=1$
将上述问题转化为等价的最小化问题:

m i n p \in C - H (P) = \sum x, y P ̂ (x) P (y | x) l o g P (y | x) s . t . E p ̂ (f i) - E p (f i) = 0, i = 1, 2, . . ., n \sum y P (y | x) = 1

$min_{p\in C} -H(P)=\sum_{x,y}\hat P(x)P(y|x)log P(y|x)\\ s.t. E_{\hat p}(f_i)-E_p (f_i)=0 , i=1,2,...,n\\ \sum_y P(y|x)=1$

这里将上述问题转化为无约束最优化的对偶问题，通过求解对偶问题求解原始问题。

L (P, w) = - H (P) + w 0 ⎛ ⎝ ⎜ ⎜ 1 - \sum y p (y | x) ⎞ ⎠ ⎟ ⎟ + \sum i = 1 n w i ⎛ ⎝ ⎜ ⎜ \sum x, y E p ̃ (f i) - E p (f i) ⎞ ⎠ ⎟ ⎟ = \sum x, y p ̃ (x) p (y | x) log (p (y | x)) + w 0 ⎛ ⎝ ⎜ ⎜ 1 - \sum y p (y | x) ⎞ ⎠ ⎟ ⎟ + \sum i = 1 n w i ⎛ ⎝ ⎜ ⎜ \sum x, y p ̃ (x, y) f i (x, y) - \sum x, y p ̃ (x) p (y | x) f i (x, y) ⎞ ⎠ ⎟ ⎟

$L(P,w) = -H(P) + w_0 \left ( 1 - \sum_y{p(y|x)} \right ) + \sum_{i=1}^n w_i \left (\sum_{x,y}{E_{\tilde p} (f_i ) - E_p (f_i ) } \right) \\ =\sum_{x,y}\tilde p(x) p(y|x) \log(p(y|x)) + w_0 \left (1 - \sum_y{p(y|x)}\right ) \\ + \sum_{i=1}^n {w_i \left(\sum_{x,y}\tilde p(x,y) f_i(x,y) - \sum_{x,y}\tilde p(x) p(y|x) f_i(x,y) \right)}$

原始问题为

m i n p \in C m a x w L (P, w)

$min_{p\in C} max_{w} L(P,w)$

对偶问题为

m a x w m i n P \in C L (P, w)

$max_w min_{P\in C} L(P,w)$
因为拉格朗日函数是P的凸函数，所以原始问题和对偶问题的解是等价的，这样可以通过求解对偶问题来求解原始问题。
下面求解对偶问题。

将对偶问题中内部的函数表示为

Ψ (w) = m i n p \in C L (P, w) = L w (P, w)

$\Psi(w) = min_{p \in C}L(P,w)=L_w(P,w)$
这个函数称为 对偶函数。将其解记为

P w = a r g m i n p \in C L (P, w) = P w (y | x)

$P_w=arg min_{p \in C}L(P,w)=P_w(y|x)$
下面对拉格朗日函数求关于

p(y|x) $p(y|x)$ 的偏导。

\partial L ( P , w ) \partial p ( y | x ) = \sum x, y p ̃ (x) (log p (y | x) + 1) - \sum y w 0 - \sum x, y p ̃ (x) \sum i = 1 n w i f i (x, y) = \sum x, y p ̃ (x) (log p (y | x) + 1 - w 0 - \sum i = 1 n w i f i (x, y))

$\frac{\partial L(P,w)}{\partial p(y|x)} = \sum_{x,y}\tilde p(x) (\log p(y|x) + 1) - \sum_y{w_0} - \sum_{x,y}{\tilde p(x) \sum_{i=1}^n w_if_i(x,y)} \\ =\sum_{x,y}\tilde p(x) \left(\log p(y|x) + 1 - w_0 - \sum_{i=1}^n w_i f_{i}(x,y)\right)$
令偏导为0,求得