二十二.最大熵模型的数学原理

最新推荐文章于 2022-07-21 00:58:09 发布

stackooooover

最新推荐文章于 2022-07-21 00:58:09 发布

阅读量370

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118616175

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.最大熵原理

最大熵原理是指在对随机变量的概率分布进行预测时，对未知概率不做任何假设。也就是说，预测概率分布为均匀分布时，熵最大，预测风险最小。

2.特征函数

数据集有 $m$ 个样本，每个样本有 $n$ 个特征和一个标签 $y$ ：
$x_{1}^{1},x_{2}^{1},x_{3}^{1},...,x_{n}^{1},y^{1}),(x_{1}^{2},x_{2}^{2},x_{3}^{2},...,x_{n}^{2},y^{2}),...,(x_{1}^{m},x_{2}^{m},x_{3}^{m},...,x_{n}^{m},y^{m})$
特征函数 $f (x, y)$ 表示 $x, y$ 之间存在某种关系：
$f(x,y)\left\{\begin{matrix} 1 &x,y相关 \\ 0 &x,y不相关 \end{matrix}\right.$
例如，数据集中出现了 $x^{2},y^{2})$ ，则 $x^{2},y^{2}$ 相关；未出现 $x^{2},y^{3})$ ，则 $x^{2},y^{3}$ 不相关。

3.最大熵模型推导

已知数据集，可以根据频率求出经验分布：
$\overline{P}(X=x,Y=y)=\frac{conut(X=x,Y=y)}{m}\\ \overline{P}(X=x)=\frac{count(X=x)}{m}$
特征函数 $f (x, y)$ 关于经验分布 $\overline{P}(x,y)$ 的期望：
$E_{\overline{p}}(f(x,y))=\sum_{x,y}\overline{P}(x,y)f(x,y)$
由于真实分布未知，特征函数 $f (x, y)$ 关于真实分布 $P (x, y)$ 的期望，可以用经验分布 $\overline{P}(x)$ 和条件概率 $P (y ∣ x)$ 近似：
$E_{p}(f(x,y))=\sum_{x,y}P(x,y)f(x,y)\approx \sum_{x,y}P(y|x)\overline{P}(x)f(x,y)$
同样， $y$ 关于 $x$ 的条件熵也可以用经验分布 $\overline{P}(x)$ 近似：
$H(Y|X)=-\sum_{x,y}P(x,y)\log P(y|x)\approx -P(y|x)\overline{P}(x)\log P(y|x)$
最大熵原理，要求求出熵 $H (Y ∣ X)$ 最大时的条件概率 $P (y ∣ x)$ ，因此，目标函数为：
$\max_{p}H(Y|X)= -\sum_{x,y}P(y|x)\overline{P}(x)\log P(y|x)$
并且假设条件概率 $P (y ∣ x)$ 可以从数据集中学习，也就是说特征函数 $f (x, y)$ 关于经验分布 $\overline{P}(x,y)$ 的期望和关于真实分布 $P (x, y)$ 的期望相等：
$E_{p}(f(x,y))=E_{\overline{p}}(f(x,y))$
最终，最大熵模型的目标函数为：
$\min_{p}-H(Y|X)= \sum_{x,y}P(y|x)\overline{P}(x)\log P(y|x)\\ s.t.E_{p}(f(x,y))-E_{\overline{p}}(f(x,y))=0\\ \sum_{y}P(y|x)=1$

4.目标函数求解

对于约束最优化问题，构造拉格朗日函数：
$\begin{aligned} L(P,w)&=\sum_{x,y}P(y|x)\overline{P}(x)\log P(y|x)+w_{0}(1-\sum_{y}P(y|x))+\sum_{i=1}^{m}w_{i}[E_{p}(f(x,y))-E_{\overline{p}}(f(x,y))] \\ &= \sum_{x,y}P(y|x)\overline{P}(x)\log P(y|x)+w_{0}(1-\sum_{y}P(y|x))+\sum_{i=1}^{m}w_{i}[ \sum_{x,y}P(y|x)\overline{P}(x)f_{i}(x,y)-\sum_{x,y}\overline{P}(x,y)f_{i}(x,y)] \end{aligned}$
原始问题：
$min_{P}\max_{w}L(P,w)$
对偶问题：
$max_{w}\min_{P}L(P,w)$
(1)求内层极小值：
$\begin{aligned} \frac{\partial L}{\partial P(y|x)}&=\sum_{x,y}\overline{P}(x)[\log P(y|x)+1]-\sum_{y}w_{0}-\sum_{i=1}^{m}w_{i}\sum_{x,y}\overline{P}(x)f_{i}(x,y)\\ &=\sum_{x,y}\overline{P}[\log P(y|x)+1-w_{0}-\sum_{i=1}^{m}w_{i}f_{i}(x,y)]\\ &=0\\ &\Rightarrow \log P(y|x)=\sum_{i=1}^{m}w_{i}f_{i}(x,y)-(1-w_{0})\\ &\Rightarrow P(y|x)=\exp[\sum_{i=1}^{m}w_{i}f_{i}(x,y)-(1-w_{0})]\\ &\Rightarrow P(y|x)=\frac{\exp\sum_{i=1}^{m}w_{i}f_{i}(x,y)}{\exp(1-w_{0})} \end{aligned}$
又 $\sum_{y}P(y|x)=1$ ：
$\frac{\sum_{y}\exp\sum_{i=1}^{m}w_{i}f_{i}(x,y)}{\exp(1-w_{0})}=1$
令 $exp(1-w_{0})=Z_{w}(x)$ ，则 $Z_{w}(x)$ 有归一化作用，称其为规范化因子，最终得：
$P(y|x)=\frac{1}{Z_{w}(x)}\exp\sum_{i=1}^{m}w_{i}f_{i}(x,y)$
(2)求外层极大值
用 $w$ 表示 $P (y ∣ x)$ 并带入 $L (P, w)$ 中，约束条件最终变为：
$\arg\max_{w}\sum_{x,y}\overline{P}(x,y)\sum_{i=1}^{m}w_{i}f_{i}(x,y)+\sum _{x}\overline{P}(x)\log Z_{w}(x)$
这是一个连续可导的凸函数，可用梯度下降、牛顿法求解，有专门针对最大熵模型优化的ISS算法。