改进的迭代尺度法

最新推荐文章于 2022-09-03 13:32:47 发布

小胖子别跑

最新推荐文章于 2022-09-03 13:32:47 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/hubingde/article/details/79469829

版权

改进的迭代尺度法(improved iterative scaling, IIS)

有如下模型：

$$P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_{i=1}^{n}w_if_i(x,y))$$

其中，$Z_w(x)=\sum_yexp(\sum_{i=1}^{n}w_if_i(x,y))$

其对数似然函数为，$L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x)$

IIS的想法是：假设模型当前的参数向量是$w=(w_1,w_2,...,wn)^T$,我们希望找到一个新的参数向量$w+\delta=(w_1+\delta_1,w_2+\delta_2,...,w_n+\delta_n)^T$使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法$\tau:w\rightarrow w+\delta$,那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

$L(w+\delta)-L(w)=\sum_{x,y}\tilde{P}(x,y)logP_{w+\delta}(y|x)-\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)$

$=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)-\sum_x\tilde{P}(x)log\frac{Z_{w+\delta}(x)}{Z_w(x)}$

利用不等式取下界

$$-log\alpha\geq 1-\alpha,\alpha>0$$

得

$L(w+\delta)-L(w) \geq \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i+1-\sum_x\tilde{P}(x)\frac{Z_{w+\delta}(x)}{Z_w(x)}$

$=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp\sum_{i=1}^{n}\delta_if_i(x,y)$

将下界记为$A(\delta|w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\delta_if_i(x,y)+1-\sum_x\tilde{P}\sum_yP_w(y|x)exp\sum_{i=1}^n\delta_if_i(x,y)$

在这里引入$f^{\#}(x,y)=\sum_if_i(x,y)$,f_i是二值函数，$f^{\#}(x,y)$表示所有特征在(x,y)出现的次数。

因此有$A(\delta|w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp(f^{\#}(x,y)\sum_{i=1}^n\frac{\delta_if_i(x,y)}{f^{\#}(x,y)})$