最大熵原则与最大熵模型

最新推荐文章于 2022-12-20 16:16:40 发布

muyuu

最新推荐文章于 2022-12-20 16:16:40 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/muyuu/article/details/122162179

版权

最大熵模型熵指数族分布特征函数拉格朗日对偶法

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

熵

熵是信息论中的概念，首先需要定义一个事件 $X = x$ 的信息量，要求满足以下两个条件：

越不可能发生的事情，信息越大
几个独立事件同时发生的信息量=每一个事件的信息量之和
个满足以上两个条件的且最为简单的函数就是对数函数了，s.t. $I (x) = - l o g P (x)$
Proof： $P (x)$ 越大， $I (x) = - l o g P (x)$ 越小
$\begin{aligned} I(x_1,x_2,x_3) &= -logP(x_1,x_2,x_3)\\ &= -logP(x_1)P(x_2)P(x_3)\\ &= -(logP(x_1)+logP(x_2)+logP(x_3))\\ &= I(x_1)+I(x_2)+I(x_3) \end{aligned}$

有了事件的信息量之后，可以定义熵为满足分布P的事件所产生的期望信息量：
$E_{x\sim P}[I(x)]= -E_{x\sim P}[logP(x)] = -\sum_{i}P(x_i)logP(x_i)$

最大熵原则与最大熵模型

最大熵原则 的含义是在 满足约束的情况下，对未知的信息不做任何假设，尽量保持可能性最大。

下面证明对于一个离散变量 $X$ ，在没有任何其他先验的情况下，根据最大熵原则 $X$ 满足均匀分布：

Proof: 假设 $X$ 为离散变量且取值范围是 $\{1,\cdots,k\}$ ，记 $P(X = i) = p_i$ ，那么根据最大熵原则：

$\begin{aligned} \text{max} -\sum_{i=1}^k p_i \text{log}p_i &\iff \text{min} \sum_{i=1}^k p_i \text{log}p_i\\ s.t. &\sum_{i=1}^k p_i =1 \end{aligned}$

由拉格朗日对偶法：
$\begin{aligned} L(p,\lambda) &= \sum_{i=1}^k p_i \text{log}p_i + \lambda(1-\sum_{i=1}^k p_i)\\ \frac{\partial L(p,\lambda)}{\partial p_i} &= \text{log}p_i + p_i * \frac{1}{p_i} - \lambda = 0\\ & \Rightarrow p_i = \frac{1}{\lambda -1} \quad \forall i \end{aligned}$

所有的 $p_i$ 是相等的常值，因此 $X$ 服从均匀分布。得证。

下面介绍 最大熵模型，对于给定数据集 ${X,Y\}$ ，不失一般性，可以用特征函数 $f (x, y)$ 来描述，特征函数可以是任何形式，例如：
$\left\{ \begin{array}{c} 1& (x,y)满足某一事实\\ 0 & 否则\end{array}\right.$

如果模型可以获取训练数据中的信息，那么对于任意特征函数，我们可以假设： $f (x, y)$ 关于经验分布 $\tilde{P}(x,y)$ 的期望值= $f (x, y)$ 关于预测分布 $P (x, y)$ 的期望值：

$E_{(x,y)-\tilde{P}(x,y)}(f) = \sum_{x,y}\tilde{P}(x,y)f(x,y)$
$E_{(x,y)-P(x,y)}(f) = \sum_{x,y}P(x,y)f(x,y) = \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)$
$\Rightarrow \sum_{x,y}\tilde{P}(x,y)f(x,y) = \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)$

根据 最大熵原则，首先给出条件熵：
$\sum_i P(x_i)H(Y|X=x_i) = -\sum_{i}P(x_i)\sum_j P(y_i|x_i)logP(y_i|x_i)$

那么，最大熵模型 的目标函数就是：
$\begin{aligned} min_P \sum_{x,y}\tilde{P}(x)P(y|&x)logP(y|x)\\ s.t. \sum_{x,y}\tilde{P}(x,y)f(x,y) &= \sum_{x,y} \tilde{P}(x)P(y|x)f(x,y)\\ \sum_{y}P(y|x)& =1 \end{aligned}$

求解带约束的最小化问题可以用拉格朗日对偶法。首先定义Lagrange函数：
$\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) + w_0 (1-\sum_{y}P(y|x))+ \\ \sum_i w_i(\sum_{x,y}\tilde{P}(x,y)f(x,y)-\sum_{x,y} \tilde{P}(x)P(y|x)f(x,y))$
则有:

$\left\{ \begin{array}{c} \sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)& 当P满足所有约束条件\\ +\infty & 否则\end{array}\right.$

所以求解目标函数等价于求解 $min_P max_w L(P,w)$ 又由于 $L (P, w)$ 是关于P的凸函数，因此可以通过解对偶问题 $max_w min_P L(P,w)$ 来得到原始问题的解。首先求 $min_P L(P,w)$ ，记 $P_w(y|x) = argmin_P L(P,w)$ ， $L (P, w)$ 关于 $P (y ∣ x)$ 求导：
$\begin{aligned} \frac{\partial L(P,w)}{\partial P(y|x)}& = \sum_{x,y} \tilde{P}(x)(logP(y|x)+1) -\sum_{y} w_0 -\sum_iw_i\sum_{x,y}\tilde{P}(x)f_i(x,y)\\ & = \sum_{x,y} \tilde{P}(x)[logP(y|x)+1-w_0-\sum_iw_if_i(x,y)] \end{aligned}$

由 $\frac{\partial L(P,w)}{\partial P(y|x)} = 0 \Rightarrow P(y|x) = exp(\sum_iw_if_i(x,y)+w_0-1) = \frac{exp(\sum_iw_if_i(x,y))}{exp(1-w_0)}$
由于 $\sum_{y}P(y|x) =1$
$\Rightarrow P_w(y|x) = \frac{exp(\sum_iw_if_i(x,y))}{Z_w}$
其中 $Z_w$ 为归一化因子。

在这一步我们发现满足约束条件的函数形式有很多种，但是还要满足最大熵原则这个条件，就只能是指数函数形式!! 因此之后的很多通过特征函数来定义目标函数的算法例如CRF,MEMM都用到了最大熵的这个思想，因此它们的目标函数也是指数形式的！

再深究一下，最后结果中的指数函数 $e x p$ ，其实是来自于熵定义中的对数函数 $l o g$ ，而这个 $l o g$ 的形式又来自于信息量的定义，而 $l o g$ 正是可以满足信息量两个要求的最简单的函数了！很奇妙有木有~

言归正传，现在还需要求解 $max_w\phi(w)$ ，其中 $\phi(w) = min_P L(P,w) = L(P_w,w)$ ，因此
$\begin{aligned} \phi(w) & = \sum_{x,y}\tilde{P}(x)P_w(y|x)logP_w(y|x)+ \sum_iw_i(\sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P_w(y|x)f_i(x,y))\\ & = \sum_{x,y}\tilde{P}(x)P_w(y|x)(logP_w(y|x)-\sum_{i}w_if_i(x,y))+ \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y)\\ & = -\sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w + \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y) \end{aligned}$

与此同时，我们可以来看一下最大熵函数的似然函数，由上面说到的最大似然的第二种形式：
$\begin{aligned} L(P;w) &= log\prod_{x,y}P(x,y)^{\tilde{P}(x,y)}\\ & = \sum_{x,y}\tilde{P}(x,y)logP(x,y)\\ & =\sum_{x,y}\tilde{P}(x,y) log\tilde{P}(x)P(y|x)\\ & =\sum_{x,y}\tilde{P}(x,y)logP(y|x)+\sum_{x,y}\tilde{P}(x,y)log\tilde{P}(x) \end{aligned}$
后面一项 $\sum_{x,y}\tilde{P}(x,y)log\tilde{P}(x)$ 为固定项，因此
$\begin{aligned} L(P_w;w) &=\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)\\ & = \sum_{x,y}\tilde{P}(x,y) (\sum_{i}w_if_i(x,y)-logZ_w)\\ & = \sum_{x,y}\tilde{P}(x,y)\sum_{i}w_if_i(x,y) - \sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w \end{aligned}$

因此 $max_w\phi(w) = max_w L(P_w;w)$

所以最优化最大熵模型，等价于最大化最大似然函数 $L(P_w;w)$

最大熵模型与指数族分布的关系

首先介绍指数族分布，满足以下形式的分布称为指数族分布：
$P(y;\eta) = b(y) exp(\eta^T T(y) - a(\eta))$

其中 $T (y)$ 称为充分统计量，该函数可以包含样本的完整特征;
$a(\eta)$ 称为对数配分函数，或 归一化因子，用来保证概率质量函数 $P(y;\eta)$ 满足 $\sum_{i}P(y_i;\eta) = 1$ 。

在广义线性模型推导线性回归模型，Logistic模型，多项Logistic模型一文中，我们已经证明过常见的高斯分布，伯努利分布都属于指数族分布。这里我们要证明 最大熵模型也满足指数族分布形式。

观察上一节中由最大熵原则得到的概率密度函数 $P_w(y|x)$ ：
$P_w(y|x) = exp(\sum_iw_if_i(x,y)+w_0-1) = exp(w^Tf(x,y)+w_0-1)$

不难发现 $P_w(y|x)$ 满足指数族分布形式，且：

$b (y) = 1$
$T (y) = f (x, y)$
$\eta = w$
$a(\eta) = 1-w_0$

因此 最大熵模型也属于指数族分布，且其充分统计量就是特征函数本身。

muyuu

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
最大熵原则与最大熵模型

最大熵准则熵最大熵准则首先看熵的定义熵熵是信息论中的概念，首先需要定义一个事件X=xX=xX=x的信息量，要求满足以下两个条件：越不可能发生的事情，信息越大几个独立事件同时发生的信息量=每一个事件的信息量之和个满足以上两个条件的且最为简单的函数就是对数函数了，s.t. I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)Proof： P(x)P(x)P(x)越大，I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)越小I(x1,
复制链接

扫一扫

专栏目录