最大熵模型详解-CSDN博客

本文链接：https://blog.csdn.net/Stray_Lambs/article/details/109156644

小白一个，如果有问题欢迎指正。

最大熵原理

最大熵模型(maximum entropy model)由最大熵原理推导实现。而最大熵原理简单说就是概率模型学习的一个准则，最大熵原理认为，在学习模型的时候，在所有可能的概率模型(分布)中，熵最大的模型就是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件下模型集合中选取熵最大的模型。

假设离散的随机变量X的概率分布是P(X)，它的熵是

$H(P)=-\sum_{x} P(x)logP(x)$

熵满足下列不等式：

$0\leq H(P)\leq log|X|$

式中，|X|是X的取值个数，当且仅当X的分布是均匀分布时右边的等号成立，也就是说X服从均匀分布时，熵最大。这里简单说一下，熵表示的是不确定性，比如说我们需要弄清楚一件事情，如果这件事情我们已经很确定了，甚至是常识，那么我们需要较少的信息去确定这件事情，例如太阳东边升起，如果这件事情我们不确定，那么我们需要很多信息才能去确定，比如说侦探找凶手，需要大量的证据。所以，熵就是对信息的一种度量，表示需要弄清楚某件事情的信息量。

我们来推导一下上面的熵不等式，以及等式成立的条件，利用拉格朗日乘数法求最大值。

假设目标函数为

$H(p)=-p(x_{1})log p(x_{1})-p(x_{2})log p(x_{2})-...-p(x_{n})log p(x_{n})$

限定的约束条件是

$p(x_{1})+p(x_{2})+...+p(x_{n})=1$

构建拉格朗日函数

$L(p({x_{1}),p(x_{2}),...,p(x_{n}), \lambda )=-p(x_{1})log p(x_{1})-p(x_{2})log p(x_{2})-...-p(x_{n})log p(x_{n})+\lambda (p(x_{1})+..+p(x_{n})-1)$

然后分别对每项求偏导

$\lambda-logp(x_{1})=0$

$\begin{matrix}. \\ . \\ . \end{matrix}$

$\lambda-logp(x_{n})=0$

$p(x_{1})+p(x_{2})+...+p(x_{n})=1$

求得

$p(x_{1})=p(x_{2})=...=p(x_{n})=\frac {1}{n}$

代入目标函数

$f(\frac {1}{n},\frac {1}{n},...,\frac {1}{n}) = -(\frac {1}{n}log\frac {1}{n}+...+\frac {1}{n}log\frac {1}{n})=-log(\frac {1}{n})=log (n)$

得证。

这里求到的是最大值，所以当分布是均匀分布的时候，熵就是最大的，等号成立。

最大熵原理认为要选择的概率模型首先必须满足已有的事实，也就是约束条件，在没有更多信息的情况下，那些不确定的部分都是”等可能的“。最大熵原理通过熵的最大化表示等可能性(均匀分布就是等可能的，而均匀分布的熵也是最大的)。

最大熵模型

简单的描述一下就是：

承认已知事物(认识)
对未知事物不做任何假设，没有任何的偏见(也就是均匀分布)

简单总结，后续详细讲一下：

定义条件熵 $H(P) = H(y|x) = -\sum_{x,y}p(y,x)log (p(y|x))$

模型目的 $p^{*}(y|x)=arg \underset {p(y|x)\in P}{max} H(y|x)$ (找到熵最大的条件概率分布)

定义特征函数 $f_{i}(x,y) \in \{0, 1\}$

约束条件 $\sum _{y\in Y}p(y|x)=1$

$E(f_{i})=\tilde {E}(f_{i})$

$\tilde {E}(f_{i})=\sum_{x, y}\tilde {p}(x, y)f_{i}(x, y)= \frac {1}{N}\sum _{x, y}f_{i}(x, y)$ (N为样本数量)

$E(f_{i})=\sum_{x, y}p(x, y)f_{i}(x, y)= \sum_{x, y}p(x)p(y|x)f_{i}(x, y)$

总之，头上带~的都是样本当中统计出来的，也就是已知的。我们需要去估计一个p(y|x)后验概率使得熵最大，最大熵模型一般用于NLP当中。

数学定义：

假设分类模型是一个条件概率分布P(Y|X)，X表示输入，Y表示输出。这个模型表示的是对于给定的输入X，以条件概率P(Y|X)输出Y。

定义：假设满足所有约束条件的模型集合为

$\mathbb{C}\equiv \{P\in \mathbb{P}|E_{p}(f_{i})=E_{\bar{p}}(f_{i}),i=1,2,..,n\}$

定义在条件概率分布 $P(Y|X)$ 上的条件熵为

$H(P)=-\sum _{x,y}\tilde{p}(x)P(y|x)logP(y|x)$

其中， $\tilde {p}(X=x) =\frac {v(X=x)}{N}$ ， $v(X=x)$ 表示训练数据中输入x出现的频数，N表示训练样本容量。

则模型集合 $\mathbb{C}$ 中条件熵H(P)最大模型称为最大熵模型。我们的目标是得到使H(P)最大的时候对应的P(y|x),这里可以对H(P)加了个负号求极小值，这样做的目的是为了使−H(P)为凸函数，方便使用凸优化的方法来求极值。

最大熵模型的学习(推导过程)

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。最大熵模型的学习可以形式化为约束最优化问题。即

$\underset{P\in C}{max} H(P)=-\sum_{x, y}\tilde{p}(x)P(y|x)logP(y|x)$

$s.t.$ $E_{p}(f_{i})=E_{\tilde{p}}(f_{i}), i=1,2,...,n$

$\sum_{y}P(y|x)=1$

按照习惯，将求最大值问题改写为等价的求最小值问题：

$\underset{P\in C}{min} -H(P)=\sum_{x, y}\tilde{p}(x)P(y|x)logP(y|x)$

$s.t.$ $E_{p}(f_{i})-E_{\tilde{p}}(f_{i})=0, i=1,2,...,n$

$\sum_{y}P(y|x)=1$

然后通过拉格朗日乘子法，将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。

$L(P,w)\equiv -H(P)+w_{0}(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}w_{i}(E_{\tilde{p}}(f_{i})-E_{p}(f_{i}))$

$=\sum_{x, y}\tilde{P}(x)P(y|x)log(P(y|x))+w_{0}(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}(\sum_{x,y}\tilde{P}(x,y)f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)P(y|x)f_{i}(x,y))$

最优化的原始问题是

$\underset{P \in C}{min}$ $\underset{w}{max}$ $L(P,w)$

对偶问题是

$\underset{w}{max}$ $\underset{P \in C}{min}$ $L(P,w)$

由于拉格朗日函数L(P,w)是P的凸函数，原始问题的解与对偶问题的解是等价的(后续证明我有时间会写在另一个文章里面)。所以这样就可以通过求解对偶问题来求解原始问题的解了。

所以，求 $L(P,w)$ 对 $P(y|x)$ 的偏导数(之前写过的模型目的就是为了求P(y|x)所以对其求偏导)

$\frac {\partial L(P,w) }{ \partial P(y|x)} =\sum_{x,y}\tilde {P}(x)(log P(y|x)+1)-\sum_{y}w_{0}-\sum_{x,y}(\tilde {P}(x)\sum_{i=1}^{n}w_{i}f_{i}(x,y))=\sum_{x,y}\tilde {P}(x)(log P(y|x)+1-w_{0}-\sum_{i=1}^{n}w_{i}f_{i}(x,y))$