最大熵模型

最新推荐文章于 2021-03-17 17:50:05 发布

张张张与 π

最新推荐文章于 2021-03-17 17:50:05 发布

阅读量161

点赞数

分类专栏：机器学习文章标签：最大熵模型概率模型

本文链接：https://blog.csdn.net/qq_42851418/article/details/83932351

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最大熵理论及应用

1. 信息论预备知识

1. 信息熵

在物理界，熵是描述事物无序性的参数，熵越大则越混乱。类似的，在信息论中，熵表示随机变量的不确定程度。

给定随机变量 $X$ ，其取值为 $x_{1},x_{2},\cdots ,x_{m}$ ，则信息熵为：
$\sum_{i=1}^{m} p(x_{i})\cdot\log \frac{1}{p(x_{i})}=-\sum_{i=1}^{m} p(x_{i})\cdot \log p(x_{i})$

熵越大，事件越不确定。熵等于 0，事件是确定的。

例如：抛硬币
$p (h e a d) = 0.5 ， p (t a i l) = 0.5$
$H(p)= -0.5*\log_2(0.5)+(-0.5*\log_2(0.5))=1$
说明：熵值最大，正反面的概率相等，事件最不确定。

最大熵理论
在外力作用下，事物总是朝着最混乱的方向发展。事物是约束和自由的统一体。事物总是在约束下争取最大的自由权，这其实也是自然界的根本原则。在已知条件下，熵最大的事物，最可能接近它的真实状态。

2. 条件熵

设 $X, Y$ 为两个随机变量， $X$ 的取值为 $x_{1},x_{2},\cdots ,x_{m}$ ， $Y$ 的取值为 $y_{1},y_{2},\cdots ,y_{n}$ ，则在已知的条件下 $Y$ 的条件熵记作 $H (Y ∣ X)$ ：
$\sum_{i=1}^{m} p(x_{i})H(Y|X=x_{i}) \\=- \sum_{i=1}^{m} p(x_{i}) \sum_{j=1}^{n} p(y_{j}|x_{i}) \log p(y_{j}|x_{i}) \\=- \sum_{i=1}^{m} \sum_{j=1}^{n} p(y_{j},x_{i})\log p(y_{j}|x_{i}) \\=- \sum_{x_{i},y_{j}} p(x_{i},y_{j})\log p(y_{j}|x_{i})$

2. 最大熵模型（ MaxEnt ）

最大熵模型是概率模型学习中一个准则，其思想为：在学习概率模型时，所有可能的模型中熵最大的模型是最好的模型；若概率模型需要满足一些约束，则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。即：对一个随机事件的概率分布进行预测，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。

3. 最大熵模型的数学推导

3.1 特征函数

特征函数 $f (x, y)$ 描述 $x$ 与 $y$ 之间的某一事实，定义如下：
$f(x,y)=\begin{cases} 1, & \text{ if x,y 满足某一事实 } \\ 0, & \text{ else } \end{cases}$
$f (x, y)$ 是一个二值函数。

3.2 约束条件

假设分类模型为条件概率分布 $P (y ∣ x)$ ，训练集为 $T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})}$ 。则联合分布 $P (x, y)$ 的经验分布 $\tilde{P}(X,Y)$ 与边缘分布 $P (x)$ 的经验分布 $\tilde{P}(X)$ ：
$\tilde{P}(X=x,Y=y)=\frac{count(X=x,Y=y)}{N} \\ \tilde{P}(X=x)=\frac{count(X=x)}{N}$
对于训练集特征 $i$ 的函数 $f_{i}(x,y)$ ，设：
$E_{\tilde{p}}(f)$ ：表示特征函数 $f$ 在训练数据上关于 $\tilde{P}(x,y)$ 的数学期望，计算公式为：
$E_{\tilde{p}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)=\frac{1}{N}\sum_{x,y}f(x,y)$

$E_{p}(f)$ ：表示特征函数 $f$ 在模型上关于 $P (x, y)$ 的数学期望，计算公式为：
$E_{p}(f)=\sum_{x,y}P(x,y)f(x,y)=\sum_{x,y}P(x)P(y|x)f(x,y)$
由于 $P (x)$ 是未知的，所以使用 $\tilde{P}(x)$ 来近似表示，于是得：
$E_{p}(f)=\sum_{x,y}P(x,y)f(x,y)=\sum_{x,y}P(x)P(y|x)f(x,y) \approx \sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$
最终我们需要求得的条件概率为： $P (y ∣ x)$ 。

为了让模型拟合训练数据，我们需要让模型 $P (y ∣ x)$ 关于函数 $f$ 的期望等于经验分布 $\tilde{P}(x,y)$ 关于 $f$ 的期望（这里就是约束条件），即 $E_{p}(f)=E_{\tilde{p}}(f)$ ：
$\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)=\sum_{x,y}\tilde{P}(x,y)f(x,y)$
给定 $n$ 个特征函数 $f_{i}(x,y)$ ，则有 $n$ 个约束条件，用 $C$ 表示满足约束的模型集合：
$C=\left \{P|E_{p}(f_{i})=E_{\tilde{p}}(f_{i}),I=1,2,\cdots,n \right \}$
从满足约束模型集合 $C$ 中找到使得 $P (y ∣ x)$ 的熵最大的即为 MaxEnt 模型了。

3.3 最大熵模型

关于分布 $P (y ∣ x)$ 的熵为：（这里公式可由条件熵的定义公式得到）
$H(P)=-\sum_{x,y}P(y,x)\log P(y|x)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)$
首先满足约束条件，然后使得熵最大即可， MaxEnt 模型 $P^{*}$ 为：
$P^{*}=\arg \max_{P\in C} H(P) 或 P^{*}=\arg \min_{P\in C} -H(P)$
综上：给出形式化的最大熵模型：

给定数据集 $\left \{ (x_{i},y_{i})\right \}_{i=1}^{n}$ ，特征函数 $f_{i}(x,y),i=1,2,...,n$ ，根据经验分布得到满足约束集的模型集合 $C$ ：
$\min_{P\in C}\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)\\ s.t. E_{p}(f_{i})=E_{\tilde{p}}(f_{i})，\forall f_{i}\\ \sum_{y}P(y|x)=1，\forall x$

3.4 MaxEnt 模型的求解

MaxEnt 模型最后被形式化为带有约束条件的最优化问题，可以通过拉格朗日乘子法，将其转为无约束条件的最优化问题。

引入拉格朗日乘子： $w_{0},w_{1},...,w_{n}$ （其中 $w_{0}$ 为 $(1-\sum_{y}P(y|x))$ 这一项约束的系数），定义拉格朗日函数 $L (P, w)$ :
$L(P,w)=-H(P)+w_{0}\left (1-\sum_{y}P(y|x)\right )+\sum_{i=1}^{n}w_{i}\left (E_{\tilde{p}}(f_{i})-E_{p}(f_{i})\right )\\ =\sum_{x,y}\tilde{P}(x)P(y|x) \log P(y|x)+w_{0}\left (1-\sum_{y}P(y|x)\right )+\sum_{i=1}^{n}w_{i}\left (\sum_{x,y}\tilde{P}(x,y)f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)p(y|x)f_{i}(x,y)\right )$
现问题转化为： $\min_{P\in C}\max_{w}L(P,w)$
为方便计算，将最小最大化问题转化为它的对偶问题：最大最小化问题： $\min_{P\in C}\max_{w}L(P,w)=\max_{w}\min_{P\in C}L(P,w)$

（1）先考虑对 $L$ 的最小化问题：
对 $P (y ∣ x)$ 求偏导：
$\frac{\partial L(P,w)}{\partial P(y|x)}=\sum_{x,y}\tilde{P}(x)\left (\log P(y|x)+1\right )-\sum_{y}w_{0}-\sum_{x,y}\left (\tilde{P}(x)\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\\ =\sum_{x,y}\tilde{P}(x)\left (\log P(y|x)+1-w_{0}-\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )$

上式第一步推导到第二步中，根据 $\sum_{x}\tilde{P}(x)=1$ ，得 $\sum_{y}w_{0}=\sum_{x,y}\tilde{P}(x)w_{0}$

令 $\frac{\partial L(P,w)}{\partial P(y|x)}=0$ ，得：
$\Rightarrow \\ P(y|x)=exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)+w_{0}-1\right )=\frac{exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )}{exp(1-w_{0})}$
记上述求得得最优解 $P (y ∣ x)$ 为 $P_{w}(y|x)$ ，即：
$P_{w}(y|x)=\frac{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}{exp(1-w_{0})}（得到对偶问题的极小解）$
由之前的约束条件之一： $\sum_{y} P_{w}(y|x)=1$
$\Rightarrow \sum_{y}\frac{exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))}{exp(1-w_{0})}=\frac{1}{exp(1-w_{0})}\sum_{y}exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )=1\\ \Rightarrow exp(1-w_{0})=\sum_{y}exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )$
令 $Z_{w}(x)=exp(1-w_{0})$ ， $Z_{w}(x)$ 称为规范化因子

得到MaxEnt模型：
$P_{w}(y|x)=\frac{1}{Z_{w}(x)}exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )$
$Z_{w}(x)=exp(1-w_{0})=\sum_{y}exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )$
将该最优解代入拉格朗日函数 $L (P, w)$ 得：
$=\sum_{x,y}\tilde{P}(x)P_{w}(y|x)\log P_{w}(y|x)+w_{0}\left (1-\sum_{y}P_{w}(y|x)\right )+\sum_{i=1}^{n}w_{i}\left (\sum_{x,y}\tilde{P}(x,y)f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)P_{w}(y|x)f_{i}(x,y)\right )\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)+\sum_{x,y}\tilde{P}(x)P_{w}(y|x)\left ( \log P_{w}(y|x)-\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x,y}\tilde{P}(x)P_{w}(y|x)\log Z_{w}(x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log Z_{w}(x)\sum_{y}P_{w}(y|x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log Z_{w}(x)$
其中，第二步推导到第三步，根据 $P_{w}(y|x)=\frac{1}{Z_{w}(x)}exp(\sum_{i=1}^{n}w_{i}f_{i}(x,y))$
$\Rightarrow \log P_{w}(y|x)+\log Z_{w}(x)=\sum_{i=1}^{n}w_{i}f_{i}(x,y)\\ \Rightarrow \log P_{w}(y|x)-\sum_{i=1}^{n}w_{i}f_{i}(x,y)=-\log Z_{w}(x)$
其中，最后一步，根据 $\sum_{y}P_{w}(y|x)=1$ 得到。

（2）现开始求对偶函数最大时参数的值：
将 $\min_{P \in C}L(P,w)$ 看成是关于 $w$ 的函数，设：
$\Psi(w)=\min_{P \in C}L(P,w)=L(P_{w},w)\\ \Rightarrow \Psi(w)=-\sum_{x}\tilde{P}(x)\log Z_{w}(x)+\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)$
现需求： $\max_{w}\Psi(w)\\ =\max_{w}\left (\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log Z_{w}(x)\right )$ （原问题转化至此）

上式属于对数线性模型，因为其包含指数函数，所以几乎不可能有解析解。因此需要借助于数值的方法，可以使用的方法有：
（1）通用迭代尺度法（ GIS：Generalized Iterative Scaling ）；
（2）改进的迭代尺度法（ IIS：Improved Iterative Scaling ）；
（3）梯度下降算法；
（4）拟牛顿法（牛顿法）。
其中（1）（2）为专为最大熵模型设计的，（3）（4）为通用算法。

3.5 极大似然估计

求上述结果的另外一种方法：极大似然估计法MLE
MLE 的一般公式表示为：
$L_{\tilde{P}}=\prod _{x}p(x)^{\tilde{p}(x)}$
其中， $p (x)$ 是对模型进行估计的概率分布， $\tilde{p}(x)$ 是实验结果得到的概率分布，进一步地：
待求解的概率模型 $P (Y ∣ X)$ 的似然函数为：
$L_{\tilde{P}}(P_{w})= \log \prod_{x,y}P(x,y)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y)\log P(x,y)\\ =\sum_{x,y}\tilde{P}(x,y)\log \left (\tilde{P}(x)P(y|x)\right )\\ =\sum_{x,y}\tilde{P}(x,y)\log P(y|x)+\sum_{x,y}\tilde{P}(x,y)\log \tilde{P}(x)$
上式的第二项为常数项，故：
$L_{\tilde{P}}(P_{w})= \sum_{x,y}\tilde{P}(x,y)\log P(y|x)$
将 $P_{w}(y|x)$ 代入上式中，得到：
$L_{\tilde{P}}(P_{w})=\sum_{x,y}\tilde{P}(x,y)\log P_{w}(y|x)\\ =\sum_{x,y}\tilde{P}(x,y)\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\log Z_{w}(x)\right )\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x,y}\tilde{P}(x,y)\log Z_{w}(x)\\ =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log Z_{w}(x)$
这与上面用拉格朗日对偶方法求解得到的结果一样。

由此可见：拉格朗日对偶得到的结果与极大似然得到的结果是等价的，换言之，最大熵模型的对偶问题的极小化等价于最大熵模型的极大似然估计。

且根据 MLE 的正确性，可以断定：最大熵的解（无偏的对待不确定性，即争取最大的自由权）同时是最符合样本数据分布的解，进一步证明了最大熵模型的合理性。

两相对比：
熵：表示不确定性的度量；
似然：表示的是与知识的吻合程度；
最大熵模型：对不确定度的无偏分配；
最大似然估计：对知识的无偏理解。
知识 = 不确定度的补集

4. 最大熵模型的应用

最大熵模型已经成功应用于自然语言处理的许多领域，如：词性标注，短语识别，指代消解，语法分析，机器翻译，文本分类，问题回答，语言模型，…

MaxEnt模型的应用示例

补充：其他熵的定义及公式
3. 联合熵
（1）设 $X, Y$ 为两个随机变量， $X$ 的取值为 $x_{1},x_{2},\cdots ,x_{m}$ ， $Y$ 的取值为 $y_{1},y_{2},\cdots ,y_{n}$ ，则其联合熵定义为 $H (X, Y)$ ：
$\\- \sum_{i=1}^{m} \sum_{j=1}^{n} p(x_{i},y_{i})\log p(x_{i},y_{i})$
（2）熵、条件熵、联合熵可以在事件概率、条件概率、联合概率的基础上进行理解。
（3）联合熵与条件熵的关系：
$H(Y|X)=H(X,Y)-H(X)\\ H(X|Y)=H(X,Y)-H(Y)\\$
即：
$H(X,Y)=H(X)+H(Y|X)\\ =H(Y)+H(X|Y)$
（4）联合熵满足的几个性质：
1） $H(X,Y)\geq\max (H(X),H(Y)$ ;
2） $H(X,Y)\leq H(X)+H(Y)$ ;
3） $H(X,Y)\geq 0$ .
4. 相对熵 KL距离
（1）相对熵，又称为 KL 距离（ Kullback-Leibler 散度）。主要用于衡量相同事件空间里的两个概率分布的差异，定义如下：
$D(P||Q)=\sum_{x\in X}P(x)\cdot \log \frac{P(x)}{Q(x)}$
（2）相对熵是用来描述概率分布 $P$ 和 $Q$ 差异的一种方法，它不具有对称性，即： $D(P||Q)\neq D(Q||P)$ 。
（3）对于两个完全相同的分布，他们的相对熵为0， $D (P ∣ ∣ Q)$ 与函数 $P$ 和函数 $Q$ 之间的相似度成反比，因此可以通过最小化相对熵来使函数 $Q$ 逼近函数 $P$ ，也就是使得估计的分布函数接近真实的分布。KL 可以用来做一些距离的度量工作，例如用来度量主题模型中得到的主题分布的相似性。
5. 互信息
（1）对于随机变量 $X, Y$ ，其互信息定义为 $M I (X, Y)$ ：
$\sum_{i=1}^{m} \sum_{j=1}^{n} p(x_{i},y_{i})\cdot \log_{2}\frac{p(x_{i},y_{i})}{p(x_{i})p(y_{i})}$
（2）互信息与联合熵的区别：
$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)\\ MI(X,Y)=H(X)-H(Y|X)=H(Y)-H(X|Y)$
6. 交叉熵
设随机变量 $X$ 的真实分布为 $p$ ，用 $q$ 分布来近似 $p$ ，则随机变量 $X$ 的交叉熵定义为：
$H(p,q)=E_{p}[-\log q]=-\sum_{i=1}^{m}p(x_{i})\log q(x_{i})$
形式上可以理解为用 $q$ 来代替 $p$ 求信息熵了。交叉熵用作损失函数时， $q$ 即为所求的模型，可以得到其与相对熵的关系：
$H(p,q)=-\sum_{x}p(x)\log q(x)\\ =-\sum_{x}p(x)\log \frac{q(x)}{p(x)}p(x)\\ =-\sum_{x}p(x)\log p(x)-\sum_{x}p(x)\log \frac{q(x)}{p(x)}\\ =H(p)+D(p||q)$
可见分布 $p$ 与 $q$ 的交叉熵等于 $p$ 的熵加上 $p$ 与 $q$ 的 $K L$ 距离，所以交叉熵越小， $D (P ∣ ∣ Q)$ 越小，即：分布 $p$ 与 $q$ 越接近，这也是相对熵的一个意义。
7. 信息增益
是一种衡量样本特征重要性的方法。特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 在给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即：
$g (D, A) = H (D) - H (D ∣ A)$
可见信息增益与互信息类似，然后是信息增益比：
$g_{R}(D,A)=\frac{g(D,A)}{H(D)}$

张张张与 π

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

最大熵理论及应用1. 信息论基本知识信息熵在物理界，熵是描述事物无序性的参数，熵越大则越混乱。类似的，在信息论中，熵表示随机变量的不确定程度，给定随机变量X，其取值为x1，x2，…，xm，则信息熵为：信息熵和熵的联系：熵是描述客观事物无序性的参数。香农认为信息是人们对事物了解的不确定性的消除或减少，它把不确定的程度称为信息熵。熵越大，事件越不确定。熵等于0，事件是确定的。例如：抛硬币...
复制链接

扫一扫