统计学习方法逻辑斯蒂回归与最大熵模型

Air浩瀚

已于 2023-11-06 13:23:06 修改

阅读量289

点赞数

分类专栏： # ML 文章标签：回归数据挖掘算法机器学习

于 2023-11-02 16:07:38 首次发布

本文链接：https://blog.csdn.net/Ryansior/article/details/134185009

版权

ML 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

统计学习方法逻辑斯蒂回归与最大熵模型

统计学习方法逻辑斯蒂回归与最大熵模型

学习李航的《统计学习方法》时，关于逻辑斯蒂回归与最大熵模型的笔记。

逻辑斯蒂回归

虽然叫逻辑回归，但是实际上是一种分类模型。

逻辑斯蒂分布

逻辑斯蒂分布（logistic distribution）：设 $X$ 是连续性随机变量，若 $X$ 服从逻辑斯蒂分布，则 $X$ 的分布函数和概率密度函数为：
$\begin{aligned} F(x)=&\, P(X \leq x) = \frac{1}{1+ \mathrm{e}^{-(x-\mu)/\gamma}} \\ f(x)=&\, F'(x) = \frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^2} \end{aligned}$
其中 $\mu$ 为位置参数， $\gamma$ 为形状参数。密度函数关于 $x=\mu$ 对称，分布函数关于 $(\mu,\frac{1}{2})$ 中心对称：

请添加图片描述

二项逻辑斯蒂回归

二项逻辑回归是一种分类模型，可以写成条件概率分布 $P (Y ∣ X)$ ，其中随机变量 $X$ 代表特征， $Y$ 的取值为 0 或 1，代表类别。具体地，该条件概率分布由以下公式确定：

二项逻辑斯蒂回归：是如下的条件概率分布：
$\begin{aligned} P(Y=1|x)=&\, \frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)} \\ P(Y=0|x)=&\, \frac{1}{1+\exp(w\cdot x+b)} \end{aligned}$
其中 $x\in\R^n$ 是输入（实例）， $Y\in\set{0,1}$ 是输出（标签值）， $w\in\R^n$ 和 $b\in\R$ 是参数。有时为了方便，将输入向量扩充为 $x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T$ ，权值扩充为 $w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T$ ，这样模型就可以写作：
$\begin{aligned} P(Y=1|x)=&\, \frac{\exp(w\cdot x)}{1+\exp(w\cdot x)} \\ P(Y=0|x)=&\, \frac{1}{1+\exp(w\cdot x)} \end{aligned}$
二项逻辑回归得到的是两个概率，代表该实例属于两个类别的概率分别是多少。

几率：一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值，即 $\frac{p}{1-p}$ ；该事件的 对数几率 或 logit 函数为：
$\text{logit}(p)=\log\frac{p}{1-p}$
对于二项逻辑回归而言，其对数几率为一个线性函数：
$\log \frac{P(Y=1|X)}{1-P(Y=1|X)}=w\cdot x$
模型参数估计：使用极大似然估计法，对于给定的数据集 $T=\set{(x_1,y_x),(x_2,y_2),\cdots,(x_N,y_N)}$ ，设：
$P(Y=1|x)=\pi(x),\quad P(Y=0|x)=1-\pi(x)$
则似然函数为：
$\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$\begin{aligned} L(w) =&\, \sum\limits_{i=1}^{N}[y_i\log \pi (x_i)+(1-y_i)\log(1-\pi(x_i))] \\ =&\, \sum\limits_{i=1}^{N}\left[ y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)) \right] \\ =&\, \sum\limits_{i=1}^{N}[y_i (w\cdot x_i)-\log (1+\exp(w\cdot x_i))] \end{aligned}$
对 $L (w)$ 求极大值，得到 $w$ 的估计值 $\hat w$ 。逻辑斯蒂的最优化问题通常使用梯度下降法及拟牛顿法进行学习。 $L (w)$ 其实就是交叉熵函数的相反数，交叉熵函数可以写成：
$\text{loss}=\sum\limits_{i=1}^{N}(y_i\log \hat y_i+(1-y_i)\log \hat (1-y_i))$
其中 $\hat y_i$ 为模型预测第 $i$ 个实例属于正类的概率，即 $\pi(x_i)$ ；

多项逻辑斯蒂回归

二项逻辑斯蒂回归推广到多项逻辑斯蒂回归，并不是使用 OVR 或 OVO 策略，而是从原理的角度进行推广。设 $Y$ 的取值集合是 $\set{1,2,\cdots,K}$ ，那么：
$P(Y=k|x)=\frac{\exp (w_k\cdot x)}{1+\sum\limits_{k=1}^{K-1}\exp{(w_k\cdot x})},\quad k=1,2,\cdots,K-1$

$P(Y=K|x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}\exp{(w_k\cdot x})}$
其中 $x\in \R^{n+1}$ ， $w_k\in \R^{n+1}$ ；

多项逻辑斯蒂回归的对数似然函数为：
$L(w)=\sum\limits_{i=1}^{N}\sum\limits_{k=1}^{K}I(y_i=k)\log P(Y=k|x_i)$
下面介绍的最大熵原理，运用在逻辑斯蒂回归中，就是极小化交叉熵，即极大化对数似然函数。（是吗）

最大熵模型

最大熵模型由最大熵原理推导实现。

原理

最大熵原理认为，学习概率模型时，在所有可能的概率模型（即概率分布）中，熵最大的模型是最好的模型。通常使用约束条件来确定可行的概率模型的集合，然后在满足约束条件的前提下选取熵最大的模型。最大熵模型最终学习到的实际上是一个条件概率分布，即 $P (Y ∣ X)$ ；

设离散随机变量 $X$ 的概率分布是 $P (X)$ ，则熵为（之后的对数都是以 $\text{e}$ 为底的）：
$H(P)=-\sum\limits_{x}P(x)\log P(x)$
熵满足以下不等式：
$0\leq H(P) \leq \log |X|$
更直观地理解，最大熵原理的约束条件指的是概率分布徐需要满足已有的事实，在此基础上，其余不确定的部分都是“等可能”的，就可以令熵最大化。

例：设随机变量 $X$ 有 5 个取值 $\set{A,\,B,\,C,\,D,\,E}$ ，要估计各个取值的概率。

在没有任何约束条件的前提下，根据最大熵原理，我们应当估计为：
$P(A)=P(B)=P(C)=P(D)=P(E)=\frac{1}{5}$
假设我们从先验知识中学习到了一些对概率值的约束条件，如：
$P(A)+P(B)=\frac{3}{10}$
则相应的估计应为：
$\begin{aligned} P(A)=&\, P(B)=\frac{3}{20} \\ P(C)=&\, P(D)=P(E)=\frac{7}{30} \end{aligned}$

定义

最大熵模型的推导：跟上面的例题一样，给定训练集：
$T=\set{(x_1,y_1),\,(x_2,y_2),\,\cdots,\,(x_N,y_N)}$
训练集中可以得到联合分布 $P(X,\,Y)$ 和边缘分布 $P (X)$ 的经验分布：
$\begin{aligned} &\, \tilde P(X=x,Y=y)=\frac{\nu(X=x,Y=y)}{N} \\ &\, \tilde P(X=x)=\frac{\nu(X=x)}{N} \end{aligned}$
其中 $\nu$ 表示频数，经验概率即为频率。

我们用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实，即：
$f(x,y)=\left\{ \begin{array}{ll} 1, & \text{$x$与$y$满足某一事实} \\ 0, & \text{else} \end{array} \right.$
特征函数 $f (x, y)$ 关于经验分布 $\tilde P(X,Y)$ 的期望值，为：
$E_{\tilde P}(f)=\sum\limits_{x,y}\tilde P(x,y)f(x,y)$
特征函数 $f (x, y)$ 关于模型 $P (Y ∣ X)$ 与经验分布 $\tilde P(X)$ 的期望值，为：
$E_P(f)=\sum\limits_{x,y}P(y|x)\tilde P(x)f(x,y)$
如果这俩期望值是相等的，则说明模型能够获取训练数据中的信息，我们将该条件作为模型学习的约束条件：
$E_P(f)=E_{\tilde P}(f)$
其中 $f$ 是我们规定的特征函数。假如有 $n$ 个特征函数，那么就有 $n$ 个约束条件，每个特征函数描述了 $x$ 与 $y$ 的某一个特征。

其实我刚开始觉得有点奇怪，为什么是 $\tilde P(x,y)$ 和 $P(y|x)\tilde P(x)$ 比较，而不是把经验联合分布和经验边缘分布放在一起，然后变成 $\frac{\tilde P(x,y)}{\tilde P(x)}$ 和 $P (y ∣ x)$ 比较；后面发现是因为根据特征函数的定义，需要 $X$ 和 $Y$ 的联合概率密度才能计算期望。但其实比较：
$\sum\limits_{x,y}\frac{\tilde P(x,y)}{\tilde P(x)}f(x,y) \overset{?}{=} \sum\limits_{x,y}P(y|x)f(x,y)$
我觉得问题也不大，只是等式左右两边的值的含义不好解释。

最大熵模型：假设满足所有约束条件的模型集合为：
$\mathcal{C}\equiv \set{P\in \mathcal{P}|E_P(f_i)=E_{\tilde P}(f_i),\quad i=1,2,\cdots,n}$
定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为：
$H(P)=-\sum\limits_{x,y}\tilde P(x)P(y|x)\log P(y|x)$
则模型集合 $\mathcal{C}$ 中条件熵 $H (P)$ 最大的模型称为最大熵模型。

学习

书上的求导过程有点怪，我按照自己的理解写一遍：

原始问题与对偶问题：对于给定的数据集 $T$ 和若干特征函数 $f_i(x,y)$ ， $i=1,2,\cdots,n$ ，最大熵模型的学习等价于如下约束最优化问题：
$\begin{aligned} \max_{P\in\mathcal{C}}&\,H(P)=-\sum\limits_{x,y}\tilde P(x)P(y|x)\log P(y|x) \\ \text{s.t.}&\,\, E_P(f_i)=E_{\tilde P}(f_i),\quad i=1,2,\cdots,n \\ &\,\, \sum\limits_{y}P(y|x)=1, \quad x\in T_x \end{aligned}$
第二个约束条件对于训练集中的每个 $x$ 都成立，但这样求解起来很麻烦。我们发现 $\sum\limits_{y}P(y|x)=1$ 的约束条件对某个 $x$ 有效，（以下内容是我自己的猜想，这样拆开后的约束条件会比原来的更严格）假设 $E_P(f_i)=E_{\tilde P}(f_i)$ 的约束条件也可以拆成对每个 $x$ 分别成立：
$E_{P}(f_i(x))=\sum\limits_{y}\tilde P(x,y)f(x,y)=\sum\limits_{y}P(y|x)\tilde P(x)f(x,y)=E_{\tilde P}(f_i(x))$
则对于每个 $x$ ，都可以得到如下的子问题：
$\begin{aligned} \max_{P\in\mathcal{C}}&\,H_x(P)=-\sum\limits_{y}\tilde P(x)P(y|x)\log P(y|x) \\ \text{s.t.}&\,\, E_P(f_i(x))=E_{\tilde P}(f_i(x)),\quad i=1,2,\cdots,n \\ &\,\, \sum\limits_{y}P(y|x)=1 \end{aligned}$
而原始问题的目标函数正好是所有子问题的目标函数的和，那么对每个子问题求极大值，就可以得到全局的极大值。因此，我们以下仅对某个子问题进行求解。

要转化为对偶问题，我们要将原始问题变为极小问题 $\min\limits_{P\in \mathcal{C}}-H_x(P)$ ，然后引入拉格朗日乘子 $w_0$ ， $w_1$ ， $\cdots$ ， $w_n$ ，得到 Lagrangian 为：
$\begin{aligned} L_x(P,w)\equiv &\, -H_x(P)+w_0\left(1-\sum\limits_{y}P(y|x)\right) +\sum\limits_{i=1}^{n}w_i[E_{\tilde P}(f_i(x))-E_{P}(f_i(x))] \\ =&\, \sum\limits_{y}\tilde P(x)P(y|x)\log P(y|x) +w_0\left(1-\sum\limits_{y}P(y|x)\right) \\ +&\, \sum\limits_{i=1}^{n}w_i\left( \sum\limits_{y}\tilde P(x,y)f_i(x,y) -\sum\limits_{y}P(y|x)\tilde P(x)f_i(x,y) \right) \end{aligned}$
原始的最优化问题为：
$\min\limits_{P\in \mathcal{C}} \max\limits_{w} L_x(P,w)$
对偶问题为：
$\max\limits_{w} \min\limits_{P\in\mathcal{C}} L_x(P,w)$
（这样每个子问题求解出来的其实只是 $P$ 的一部分，即 $P (Y ∣ x)$ ，只需要对所有的子问题求解即可）

对偶问题求解： $L_x$ 是 $P$ 的凸函数，主要看 $P(y|x)\log P(y|x)$ ，即 $f(x)=x\ln x$ ，它是个凸函数；而后边的线性部分不影响凹凸性。所以我们可以通过求解对偶问题赖求解原始问题。

首先，求 $\min\limits_{P\in\mathcal{C}} L_x(P,w)$ ，记：

$\Psi_x(w)=\min\limits_{P\in\mathcal{C}} L_x(P,w)$

称 $\Psi(w)$ 为对偶函数。同时，将其解记为：
$P_w=\arg \min\limits_{P\in\mathcal{C}} L_x(P,w) =P_w(Y|x)$
FOC 为：
$\begin{aligned} \frac{\partial L_x(P,w)}{\partial P(y|x)} =&\,\tilde P(x)(\log P(y|x)+1)- w_0 -\tilde P(x)\sum\limits_{i=1}^{n}w_if_i(x,y) \\ =&\,\tilde P(x) \left( \log P(y|x)+1-\sum\limits_{i=1}^{n}w_if_i(x,y) \right)-w_0 \\ =&\, 0 \end{aligned}$
解得：
$P(y|x)=\exp\left( \frac{w_0}{\tilde P(x)}-1+\sum\limits_{i=1}^{n}w_if_i(x,y) \right)=\frac{\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)}{\exp(1-\frac{w_0}{\tilde P(x)})}$
由于需要满足约束条件 $\sum\limits_{y}P(y|x)=1$ ，即对所有的 $y$ 求和为一，那么上式中分子对 $y$ 求和也等于分母，因此我们可以写做：
$P_w(y|x)=\frac{1}{Z_w(x)}\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)$
其中 $Z_w(x)$ 被称为规范化因子：
$Z_w(x)=\sum\limits_{y}\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)$

再求 $\max\limits_{w} ( \min\limits_{P\in\mathcal{C}} L_x(P,w))$ ：将所有的 $P_w(Y|x)$ 代入原始问题，得到所有子问题的对偶函数之和 $\Psi(w)$ ，再求：

$\max_{w} \Psi(w)$

将其解记为 $w^\ast$ ，即：
$w^\ast =\arg \max_{w} \Psi(w)$
由于前面得到的 $P_w(Y|X)$ 是解析解，因此最大熵模型的学习可以直接归结为对偶函数 $\Psi(w)$

的极大化。

例：设随机变量 $Y$ 有 5 个取值 $\set{y_1,\,y_2,\,y_3,\,y_4,\,y_5}$ ，且有约束条件：
$\tilde P(y_1)+\tilde P(y_2)=\frac{3}{10}$
使用最大熵模型估计各个取值的概率。

书上这个例题选得简单，但是太过简单了也不好，因为:

这里可以认为 $X$ 只有一种取值，先验概率 $\tilde P(X)=1$ ，因此要学习的 $P (Y ∣ X)$ 其实就是 $P (Y)$ ；
这个问题的特征函数 $f (x, y)$ 我也写不出来。。。

所以我也没法根据这个例题看懂最大熵模型学习的推导过程（悲）；

该问题使用最大熵模型学习的最优化问题为：
$\begin{aligned} \min_{P\in\mathcal{C}}&\,-H(P)=\sum\limits_{i=1}^5P(y_i)\log P(y_i) \\ \text{s.t.}&\,\, P(y_1)+P(y_2)=\tilde P(y_1)+\tilde P(y_2)=\frac{3}{10}\\ &\,\, \sum\limits_{i=1}^{5}P(y_i)=1 \end{aligned}$
其 Lagrangian 为：
$L(P,w)=\sum\limits_{i=1}^5P(y_i)\log P(y_i)+w_0\left(1-\sum\limits_{i=1}^{5}P(y_i) \right)+w_1(\frac{3}{10}-P(y_1)-P(y_2))$
FOC 为：
$\begin{aligned} \frac{\partial L(P,w)}{\partial P(y_1)}=&\, \log P(y_1)+1-w_0-w_1=0 \\ \frac{\partial L(P,w)}{\partial P(y_2)}=&\, \log P(y_2)+1-w_0-w_1=0 \\ \frac{\partial L(P,w)}{\partial P(y_3)}=&\, \log P(y_3)+1-w_0=0 \\ \frac{\partial L(P,w)}{\partial P(y_4)}=&\, \log P(y_4)+1-w_0=0 \\ \frac{\partial L(P,w)}{\partial P(y_5)}=&\, \log P(y_5)+1-w_0=0 \\ \end{aligned}$
解得：
$\begin{aligned} P(y_1)=&\, P(y_2)=\mathrm{e}^{w_0+w_1-1} \\ P(y_3)=&\, P(y_4)=P(y_5)=\mathrm{e}^{w_0-1} \end{aligned}$
比较前面学习算法的解析解，我认为特征函数应当写成：（这个问题只有一个特征函数）
$f(y)=\left\{ \begin{array}{l} 1 & y\in\set{y_1,y_2} \\ 0 & \text{else} \end{array} \right.$
代入 $P_w(y)$ ，得到特征函数为：
$\Psi(w)=-2\mathrm{e}^{w_0+w_1-1}-3\mathrm{e}^{w_0-1}+w_0+\frac{3}{10}w_1$
求 $\Psi(w)$ 的极大值，FOC 为：
$\begin{aligned} \frac{\partial \Psi}{\partial w_0}=&\, -2\mathrm{e}^{w_0+w_1-1}-3\mathrm{e}^{w_0-1}+1=0 \\ \frac{\partial \Psi}{\partial w_1}=&\, -2\mathrm{e}^{w_0+w_1-1}+\frac{3}{10}=0 \end{aligned}$
解得：
$\mathrm{e}^{w_0+w_1-1}=\frac{3}{10},\quad \mathrm{e}^{w_0-1}=\frac{7}{30}$
因此学习到的概率分布为：
$\begin{aligned} P(y_1)=&\, P(y_2)=\frac{3}{10} \\ P(y_3)=&\, P(y_4)=P(y_5)=\frac{7}{30} \end{aligned}$

极大似然估计

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。

已知训练数据的经验概率分布 $\tilde P(X,Y)$ ，条件概率分布 $P (Y ∣ X)$ 的对数似然函数为：
$L_{\tilde P}(P_w)=\log \prod\limits_{x,y}P(y|x)^{\tilde P(x,y)}=\sum\limits_{x,y}\tilde P(x,y)\log P(y|x)$

理解一下这里的对数似然函数的形式。以前的话，比如对于某个离散型随机变量 $X$ 的分布的参数估计，我们抽取一些样本 $T=\set{x_1,x_2,\cdots,x_n}$ ；则常见的对数似然函数为：
$L(x,\theta)=\log \prod_{i=1}^{n}P(X=x_i)$
但是，由于 $X$ 是离散的，有可数种取值情况，因此也可以写成：
$L(x,\theta)=\log \prod _{x}P(X=x)^{v(x)}$
其中 $v (x)$ 为 $x$ 在样本 $T$ 中出现的频率。两边开 $n$ 次方得到：
$L(x,\theta)^{\frac{1}{n}}=\log \prod_{x}P(X=x)^\frac{v(x)}{n}=\log \prod_{x}P(X=x)^{\tilde P(X=x)}$
对 $L(x,\theta)^{\frac{1}{n}}$ 求极值和对 $L(x,\theta)$ 求极值是一样的，因此对数似然函数带有指数的形式。

同样地，我们将极大似然估计按照 $x$ 的取值不同分为不同的子函数：
$L_{\tilde P}(P_w(x))=\sum\limits_{y}\tilde P(x,y)\log P(y|x)$
当条件概率分布 $P (y ∣ x)$ 是最大熵模型时，即：
$P_w(y|x)=\frac{1}{Z_w(x)}\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)$
此时对数似然函数为：
$\begin{aligned} L_{\tilde P}(P_w(x)) =&\,\sum\limits_{y}\tilde P(x,y)\log P_w(y|x) \\ =&\,\sum\limits_{y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y)-\sum\limits_{y}\tilde P(x,y)\log Z_w(x) \end{aligned}$
而对偶函数为：

$\begin{aligned} \Psi_x(w) =&\, \sum\limits_{y}\tilde P(x)P_w(y|x)\log P_w(y|x) + \\ &\, \sum\limits_{i=1}^{n}w_i\left( \sum\limits_{y}\tilde P(x,y)f_i(x,y) -\sum\limits_{y}P_w(y|x)\tilde P(x)f_i(x,y) \\ \right) \\ =&\, \sum\limits_{y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y) +\sum\limits_{y}\tilde P(x)P_w(y|x)\left( \log P_w(y|x)-\sum\limits_{i=1}^{n}w_if_i(x,y)\right) \\ =&\, \sum\limits_{y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y) -\sum\limits_{y}\tilde P(x)P_w(y|x)\log Z_w(x) \\ =&\, \sum\limits_{y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y) -\sum\limits_{y}\tilde P(x,y)\log Z_w(x) \\ \end{aligned}$

第二个等号并没有代入 $P_w(y|x)$ ，而是对原有的项进行排列组合以方便计算；
第三个等号代入了最后的 $log P_w(y|x)$ ；
最后一个等号是在满足约束条件的情况下满足的；

因此可以得到：
$\Psi(w)=L_{\tilde P}(P_w)$
最大熵模型与逻辑回归的学习都可以归结为以似然函数为目标的最优化问题，其学习通常通过迭代法求解，因为目标函数（似然函数）是光滑的凸函数。常见的方法还有：迭代尺度法、梯度下降法、牛顿法或拟牛顿法。

最大熵模型与逻辑回归具有类似的形式，都称为对数线性模型（log linear model） ，该模型的学习就是在给定训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

改进的迭代尺度法

最大熵模型的 IIS 算法推导：前面已经证明了，最大熵模型的学习本质上就是极大似然估计法，对数似然函数为：
$\begin{aligned} L_{\tilde P}(P_w) =&\,\sum\limits_{x,y}\tilde P(x,y)\log P(y|x) \\ =&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y)-\sum\limits_{x,y}\tilde P(x,y)\log Z_w(x) \\ =&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y)-\sum\limits_{x}\tilde P(x)\log Z_w(x) \\ \end{aligned}$
其中最大熵的模型为：
$P_w(y|x)=\frac{1}{Z_w(x)}\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)$
其中：
$Z_w(x)=\sum\limits_{y}\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)$

我们的目标是通过极大似然估计学习模型参数，求对数似然函数的极大值 $\hat w$ ；

改进的迭代尺度法（improved iterative scaling, IIS）是一种迭代算法，思想是对于当前的参数 $w$ （这里 $w$ 是 $n$ 维向量，已经不包括 $w_0$ 了），我们希望找到一个更新量 $\delta=(\delta_1,\delta_2,\cdots,\delta_n)^{\mathrm{T}}$ ，使得更新以后（ $w\leftarrow w+\delta$ ）对数似然函数变得更大了。

更新以后，对数似然函数的改变为：
$L(w+\delta)-L(w)=\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)-\sum\limits_{x}\tilde P(x)\log \frac{Z_{w+\delta}(x)}{Z_w(x)}$
对含规范因子的那一项，使用不等式：
$-\log \alpha \geq 1-\alpha, \quad \alpha \gt 0$
得到：
$\begin{aligned} L(w+\delta)-L(w) \geq&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1-\sum\limits_{x}\tilde P(x)\frac{Z_{w+\delta}(x)}{Z_w(x)} \\ =&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1 -\sum\limits_{x}\tilde P(x)P_w(y|x)\exp\left( \sum\limits_{i=1}^{n}\delta_if_i(x,y) \right) \end{aligned}$
其中：
$\begin{aligned} \frac{Z_{w+\delta}(x)}{Z_w(x)} =&\,\frac{\sum\limits_{y}\exp\left( \sum\limits_{i=1}^{n}(w_i+\delta_i)f_i(x,y) \right)}{Z_w(x)} \\ =&\,\sum\limits_{y}\frac{1}{Z_w(x)}\exp\left( \sum\limits_{i=1}^{n}(w_i+\delta_i)f_i(x,y) \right) \\ =&\, \sum\limits_{y}\frac{P_w(y|x)}{\exp\left( \sum\limits_{i=1}^{n}w_if_i(x,y) \right)}\exp\left( \sum\limits_{i=1}^{n}(w_i+\delta_i)f_i(x,y) \right) \\ =&\, \sum\limits_{y}P_w(y|x)\exp\left( \sum\limits_{i=1}^{n}\delta_if_i(x,y) \right) \\ \end{aligned}$
记右边为 $A(\delta|w)$ ，即对数似然函数改变量的一个下界：
$A(\delta|w)=\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1 -\sum\limits_{x}\tilde P(x)\sum\limits_{y}P_w(y|x)\exp\left( \sum\limits_{i=1}^{n}\delta_if_i(x,y) \right)$
则：
$L(w+\delta)-L(w)\geq A(\delta|w)$
为了提高对数似然函数，我们要找到一个 $\delta$ 使得下界 $A(\delta|w)$ 提高。但 $A(\delta|w)$ 是个多元函数，不容易对整个 $\delta$ 同时优化。IIS 的做法是每次只优化其中一个变量 $\delta_i$ ，而固定其他变量 $\delta_j$ ， $i\not =j$ ；

我们定义一个变量 $T (x, y)$ ，代表 $x$ 和 $y$ 满足的特征数量（或者说所有特征在 $x$ 和 $y$ 种出现的次数）：
$T(x,y)=\sum\limits_{i}f_i(x,y)$
则 $A(\delta|w)$ 可以改写为：
$\begin{aligned} A(\delta|w) =&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1 \\ -&\,\sum\limits_{x}\tilde P(x)\sum\limits_{y}P_w(y|x)\exp\left( \sum\limits_{i=1}^{n}T(x,y)\delta_i\frac{f_i(x,y)}{T(x,y)} \right) \end{aligned}$
由于指数函数 $\exp$ 是凸函数，并且 $\sum\limits_{i=1}^{n}\frac{f_i(x,y)}{T(x,y)}=1$ ，因此可以利用 Jensen 不等式，得到：
$\exp\left( \sum\limits_{i=1}^{n}T(x,y)\delta_i\frac{f_i(x,y)}{T(x,y)} \right) \leq \sum\limits_{i=1}^{n}\frac{f_i(x,y)}{T(x,y)}\exp(\delta_iT(x,y))$
即：
$\begin{aligned} A(\delta|w) \geq&\,\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1 \\ -&\,\sum\limits_{x}\tilde P(x)\sum\limits_{y}P_w(y|x)\sum\limits_{i=1}^{n}\frac{f_i(x,y)}{T(x,y)}\exp(\delta_iT(x,y)) \end{aligned}$
记右端为：
$B(\delta|w)=\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}\delta_if_i(x,y)+1 -\sum\limits_{x}\tilde P(x)\sum\limits_{y}P_w(y|x)\sum\limits_{i=1}^{n}\frac{f_i(x,y)}{T(x,y)}\exp(\delta_iT(x,y))$
于是得到：
$L(w+\delta)-L(w)\geq A(\delta|w)\geq B(\delta|w)$
$B(\delta|w)$ 也是对数似然函数改变量的一个下界，虽然不如 $A(\delta|w)$ 更紧，但是更容易优化，FOC 为：
$\frac{\partial B(\delta|w)}{\partial \delta_i}=0 \\ \Rightarrow\sum\limits_{x,y}\tilde P(x)P_w(y|x)f_i(x,y)\exp(\delta_iT(x,y))=E_{\tilde P}[f_i]$
只要对每个 $i$ 都解出该方程，就可以得到每个 $\delta_i$ ，从而得到 $w$ 的改变量 $\delta$ ；

算法：改进的迭代尺度算法 IIS

输入：特征函数 $f_1$ ， $f_2$ ， $\cdots$ ， $f_n$ ，经验分布 $\tilde P(X,Y)$ ，模型 $P_w(y|x)$ ；
输出：最优参数值 $w^\ast$ ，最优模型 $P_{w^\ast}$ ；

对所有 $i\in \set{1,2,\cdots, n}$ ，取初值 $w_i=0$ ；
对所每一个 $i\in \set{1,2,\cdots, n}$ ，求 $\delta_i$ 为方程的解：

$\sum\limits_{x,y}\tilde P(x)P_w(y|x)f_i(x,y)\exp(\delta_iT(x,y))=E_{\tilde P}[f_i]$

其中：
$T(x,y)=\sum\limits_{i=1}^{n}f_i(x,y)$

更新 $w$ 值： $\leftarrow w+\delta$ ；
如果不是所有的 $w_i$ 都收敛，则重复 2；

求解方程中的 $\delta_i$ 时，如果 $T (x, y)$ 对于任意 $x$ ， $y$ 都是常数 $M$ ，则 $\delta_i$ 可以显式地写为：
$\delta_i=\frac{1}{M}\log \frac{E_{\tilde P}[f_i]}{E_P[f_i]}$
如果 $T (x, y)$ 不是常数，也可以用算法 S 和算法 T 等近似为常数（参考 CRF 的笔记中的 IIS 算法）。

或者可以通过数值计算求解 $\delta_i$ ，简单有效的方法是牛顿法。以 $g(\delta_i)=0$ 表示需要求解的方程，每一步迭代公式为：
$\delta_i^{(k+1)}=\delta_i^{(k)}-\frac{g(\delta_i^{(k)})}{g'(\delta_i^{(k)})}$
只要选取适当的初始值 $\delta_i^{(0)}$ ，由于 $\delta_i$ 的方程有单根，因此牛顿法一定会收敛。

拟牛顿法

可以去比较一下最大熵模型学习的拟牛顿法和 CRF 的拟牛顿法，几乎是一样的。

参考牛顿法和拟牛顿法的笔记。对于最大熵模型而言：
$\begin{aligned} P_w(y|x)=&\, \frac{\exp\sum\limits_{i=1}^{n}w_if_i(y,x)} {\sum\limits_{y}\exp\sum\limits_{i=1}^{n}w_if_i(y,x)} \\ \end{aligned}$
目标函数为对数似然函数，但牛顿法求的是极小值问题，因此取个负号。学习的优化目标函数是：
$\begin{aligned} \min\limits_{w\in\R^n} f(w)=&\,-L(w) \\ =&\,\sum\limits_{x}\tilde P(x)\log \sum\limits_{y}\exp \left( \sum\limits_{i=1}^{n}w_if_i(x,y)\right)-\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y) \end{aligned}$
其梯度函数为：
$g(w)=\left( \frac{\partial f(w)}{\partial w_1},\frac{\partial f(w)}{\partial w_2},\cdots,\frac{\partial f(w)}{\partial w_n} \right)^{\mathrm{T}}$
其中：
$\frac{\partial f(w)}{\partial w_o}=\sum\limits_{x,y}\tilde P(x)P_w(y|x)f_i(x,y)-E_{\tilde P}(f_i),\quad i=1,2,\cdots,n$
这个梯度其实就是模型的概率分布下和经验概率分布下第 $i$ 个特征的期望之差；当梯度足够小时，我们就认为模型学习到了训练数据的特征。

算法：最大熵模型学习的 BFGS 算法

输入：特征函数 $f_1$ ， $f_2$ ， $\cdots$ ， $f_n$ ，经验分布 $\tilde P(X,Y)$ ，目标函数 $f (w)$ ，梯度 $g(w)=\nabla f(w)$ ，精度 $\varepsilon$ ；
输出：最优参数值 $\hat w$ ，最优模型 $P_{\hat w}(Y|X)$ ；

选定初始点 $w^{(0)}$ ，取 $B_0$ 为正定矩阵，置 $k = 0$ ；
计算 $g_k=g(w^{(k)})$ ，若 $\|g_k\|\lt \varepsilon$ ，则停止计算，返回参数值 $\hat w=w^{(k)}$ 和最优模型 $P_{\hat w}(Y|X)$ ；
由 $B_kp_k=-g_k$ 求得 $p_k$ ；
一维搜索：求 $\lambda_k$ 使得：