改进的迭代尺度算法（IIS）

最新推荐文章于 2020-10-23 21:19:31 发布

张张张与 π

最新推荐文章于 2020-10-23 21:19:31 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习文章标签：改进的迭代尺度法 IIS 最优化

本文链接：https://blog.csdn.net/qq_42851418/article/details/84109640

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

改进的迭代尺度算法（Improved Iterative Scaling ，IIS）

改进的迭代尺度算法是一种最大熵模型学习的最优化方法，其核心思想是：假设最大熵模型当前的参数向量是 $w$ ，希望找到一个新的参数向量 $w+\delta$ ，使得当前模型的对数似然函数值 $\Psi$ 增加。重复这一过程，直至找到对数似然函数的最大值。

已知最大熵模型为：
$P_{w}(y|x)=\frac{1}{Z_{w}(x)}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right ) \tag{1}$
其中 $Z_{w}(x)=\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )（规范化因子）\tag{2}$
$f(x,y)=\left\{\begin{matrix} 1，若 x,y 满足某一事实\\ 0，否则\end{matrix}\right.$
对数似然函数：
$\Psi(w) =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w}(x)\tag{3}$
其中， $\sum_{x,y}\tilde{p}(x,y)=\sum_{x}\tilde{p}(x)$

可以看到 $\Psi \leq 0$ ，所以， $\Psi(w)=0$ 是最优的。

现在我们需要求的就是使 $\Psi(w)$ 值最大时所对应的参数 $w$ 的值。

给定特征函数集 ${f_{1},f_{2},...,f_{n}}$ ，最大熵模型（1）和经验分布 $\tilde{P}(x,y)$ ，下面求 $W^{*}$ ，使得 $W^{*}=\arg \max_{w}\Psi(w)$
由定义： $\Psi(w)=\sum_{x,y}\tilde{p}(x,y)\log p_{w}(y|x)\tag{4}$

IIS 的想法是：假设最大熵模型当前的参数向量是 $w=(w_{1},w_{2},...,w_{n})^T$ ，我们希望找到一个新的参数向量 $w+\delta=(w_{1}+\delta_{1},w_{2}+\delta_{2},,...,w_{n}+\delta_{n})^{T}$ ，使得模型的对数似然函数值增大。如果能有一种向量的更新方法： $w:w+\delta$ ，那么就可以重复使用这一方法直到找到对数似然函数得最大值。

第一步：

由（4）得，模型参数从 $w$ 到 $w+\delta$ ，对数似然函数得改变量为：
$\Psi(w+\delta)-\Psi(w)\overset{由（4）式}{=}\sum_{x,y}\tilde{p}(x,y)\log p_{w+\delta}(y|x)-\sum_{x,y}\tilde{p}(x,y)\log p_{w}(y|x)\\ \overset{由（3）式}{=}\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w+\delta}(x)-\left (\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w}(x)\right )\\ =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log \frac{Z_{w+\delta}(x)}{Z_{w}(x)}$

利用不等式： $-\log \alpha\geq1-\alpha (\alpha>0)$ ( 由 $x\leq e^{x-1}(x>0)\Rightarrow \log x\leq x-1(x>0)$ 得到上述不等式）

建立对数似然函数改变量的下界：
$\Rightarrow \Psi(w+\delta)-\Psi(w)\geq \sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\left ( \frac{Z_{w+\delta}(x)}{Z_{w}(x)}-1\right )\\ =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\frac{Z_{w+\delta}(x)}{Z_{w}(x)}$
对于 $\frac{Z_{w+\delta}(x)}{Z_{w}(x)}$ ，根据 $Z_{w}(x)=\sum_{y}\exp (\sum_{i=1}^{n}w_{i}f_{i}(x,y))$
$\Rightarrow \frac{Z_{w+\delta}(x)}{Z_{w}(x)}=\frac{1}{Z_{w}(x)}\cdot \sum_{y}\exp\left (\sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y)\right )\\ =\frac {1}{Z_{w}(x)}\cdot\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)+\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\frac{1}{Z_{w}(x)}\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\sum_{y}\frac{1}{Z_{w}(x)}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\sum_{y}p_{w}(y|x)\cdot \exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )$
将上述式子代入 $\Psi(w+\delta)-\Psi(w)$ 中
$\Rightarrow\Psi(w+\delta)-\Psi(w)\geq\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )$

将不等式右端记为 $A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\tag{5}$
于是
$\Rightarrow\Psi(w+\delta)-\Psi(w)\geq A(\delta|w)$
即 $A(\delta|w)$ 是对数似然函数改变量的一个下界。

第二步

现目标是：找到适当的 $\delta$ ，使得下界 $A(\delta|w)$ 提高，则似然函数也会提高，但 $A(\delta|w)$ 是一个 $n$ 维向量，不易于同时优化，IIS 试图一次优化其中一个 $\delta_{i}$ ，而固定其它 $\delta_{j}$ 不变， $i\neq j$ 。

注意：
这里的目的就是最大化两次迭代之间的差值。
1.差值的最大值如果小于 0，说明这时已经达到了最大值，在当前位置向任何方向走，对数似然函数都会变小，而我们要求的是极大似然函数，所以已经达到最大的似然函数了，此时的参数即为我们所求的参数。
2.差值如果大于 0，那么我们现在就是要最大化这个差值，这里得到了差值的下界 $A(\delta|w)$ ，可以通过不断地最大化此下界，从而得到最大的差值，而最大化下界的方法是：首先对 $A(\delta|w)$ 求关于 $\delta_{i}$ 的偏导数，并令其为 0，但看这个求出的偏导数：
$\frac{\partial (A(\delta|w))}{\partial \delta_{i}}=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left(\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right)f_{i}(x,y)$
里面含有多个变量，不易同时优化。

因此为达到这一目的并进一步降低下界 $A(\delta|w)$ ，IIS 引进一个新的量：
$f^{\#}(x,y)=\sum_{i}f_{i}(x,y)$
因为 $f_{i}(x,y)$ 是一个二值函数，所以 $f^{\#}(x,y)$ 表示所有特征在 $(x, y)$ 出现的次数。
所以（5）式可改写为：
$\Rightarrow A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x）\sum_{y}p_{w}(y|x)\exp\left (f^{\#}(x,y)\sum_{i=1}^{n}\frac {\delta_{i}f_{i}(x,y)}{f^{\#}(x,y)} \right )$
利用指数函数的凸函数性质，及对任意 $i$ ，有 $\frac{f_{i}(x,y)}{f^{\#}(x,y)}\geq 0$ 且 $\sum_{i=1}^{n}\frac{f_{i}(x,y)}{f^{\#}(x,y)}=1$ ，利用詹森不等式：
$\exp\left(\sum_{x}p(x)q(x)\right)\leq\sum_{x}p(x)\exp q(x)$
令 $p(x)=\frac{f_{i}(x,y)}{f^{\#}(x,y)}$ , $q(x)=\delta_{i}f^{\#}(x,y)$
$\Rightarrow A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x} \tilde{p}(x)\sum_{y}p_{w}(y|x)\exp \left (\sum_{i=1}^{n}\frac{\delta_{i}f_{i}(x,y)f^{\#}(x,y)}{f^{\#}(x,y)}\right)\tag{6} \\ \geq\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\sum_{i=1}^{n}\left(\frac{f_{i}(x,y)}{f^{\#}(x,y)}\right)\exp({\delta_{i}f^{\#}(x,y)})$
将上述不等式右边记为 $B(\delta|w)$ ，则： $\Psi(w+\delta)-\Psi(w)\geq B(\delta|w)$
这里， $B(\delta|w)$ 是对数似然函数改变量的一个新的下界。

第三步

对于新下界 $B(\delta|w)$ ，对 $\delta_{i}$ 求偏导得（注意：这里是对一项 $\delta_{i}$ 求偏导，而非所有 $\delta$ ）
$\frac{\partial (B(\delta|w))}{\partial \delta_{i}}=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))$
其中， $\left(\sum_{i=1}^{n}(\frac {f_{i}(x,y)}{f^{\#}(x,y)})\exp(\delta_{i}f^{\#}(x,y))\right)_{\delta_{i}}^{'}\overset{(\sum a\cdot e^{\delta_{i}b})_{\delta_{i}}^{'}=a b\cdot e^{\delta_{i}b}}{=}\frac{f_{i}(x,y)}{f^{\#}(x,y)~}\cdot f^{\#}(x,y)\cdot \exp(\delta_{i}f^{\#}(x,y))$

这里，偏导数 $\frac{\partial (B(\delta|w))}{\partial \delta_{i}}$ 中除 $\delta_{i}$ 以外，不含任何其他变量，令 $\frac{\partial (B(\delta|w))}{\partial \delta_{i}}=0$
$\Rightarrow\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)\\ \Rightarrow \sum_{x,y}\tilde{p}(x)p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=E_{\tilde{p}}(f_{i})\tag{7}$
依次对 $\delta_{i}$ 求解方程（7），从而求出 $\delta$ ，这样就可以 $W^{*}=(w_{1},w_{2},...,w_{n})$ 的值进行更新了。

算法描述

改进的迭代尺度算法IIS

输入：特征函数 $f_{1},f_{2},..,{f_{n}}$ ；经验分布函数 $\tilde{p}(X,Y)$ ，模型 $P_{w}(y|x)$ ；
输出：最优参数值 $w^{*}$ ；最优模型 $P_{w^{*}}$ 。

（1）对所有 $\in \left \{ 1,2,...,n\right \}$ ，取初值 $w_{i}=0$ ；
（2）对每一个 $\in \left \{ 1,2,...,n\right \}$ ：

（a）令 $\delta_{i}$ 是方程 $\sum_{x,y}\tilde{p}(x)p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=E_{\tilde{p}}(f_{i})$ 的解，这里， $f^{\#}(x,y)=\sum_{i}f_{}(x,y)$
（b）更新 $w_{i}$ 值： $w_{i}\rightarrow w_{i}+\delta_{i}$

（3）如果不是所有的 $w_{i}$ 都收敛，重复（2）。

这一算法关键是（a），即求解方程（7）中的 $\delta_{i}$ 。
如果 $f^{\#}(x,y)$ 是常数，即对任何 $x, y$ 有 $f^{\#}(x,y)=M$ ，那么 $\delta_{i}$ 可以显示地表示成 $\delta_{i}=\frac{1}{M}\log\frac{E_{\tilde{p}}(f_{i})}{E_{p}(f_{i})}$ ；
如果 $f^{\#}(x,y)$ 不是常数，那么必须通过数值计算求 $\delta_{i}$ 。
（注意：这里 $f^{\#}$ 是 $f$ 的加权和，为什么 $f^{\#}$ 可能不为常数呢？因为离线训练中是常数，在线训练（增量式训练样本）中就不是常数。）

简单有效的方法是：牛顿法。以 $g(\delta_{i})=0$ 表示方程（7），牛顿法通过迭代求得 $\delta_{i}^{*}$ ，使得 $g(\delta_{i}^{*})=0$
迭代公式为：
$\delta_{i}^{({k+1})}=\delta_{i}^{(k)}-\frac{g(\delta_{i}^{(k)})}{g^{'}(\delta_{i}^{(k)})}$
只要适当选取初始值 $\delta_{i}^{(0)}$ ，由于 $\delta_{i}$ 的方程（7）有单根，因此牛顿法恒收敛，而且收敛的速度很快。

张张张与 π

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
改进的迭代尺度算法（IIS）

改进的迭代尺度算法（Improved Iterative Scaling ，IIS）改进的迭代尺度算法是一种最大熵模型学习的最优化方法，其核心思想是：假设最大熵模型当前的参数向量是www，希望找到一个新的参数向量w+δw+\deltaw+δ，使得当前模型的对数似然函数值Ψ\PsiΨ增加。重复这一过程，直至找到对数似然函数的最大值。已知最大熵模型为：(1)Pw(y∣x)=1Zw(x)exp(∑...
复制链接

扫一扫