改进的迭代尺度法(improved iterative scaling, IIS)
有如下模型:
$$P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_{i=1}^{n}w_if_i(x,y))$$
其中,\(Z_w(x)=\sum_yexp(\sum_{i=1}^{n}w_if_i(x,y))\)
其对数似然函数为,\(L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_x\tilde{P}(x)logZ_w(x)\)
IIS的想法是:假设模型当前的参数向量是\(w=(w_1,w_2,...,wn)^T\),我们希望找到一个新的参数向量\(w+\delta=(w_1+\delta_1,w_2+\delta_2,...,w_n+\delta_n)^T\)使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法\(\tau:w\rightarrow w+\delta\),那么就可以重复使用这一方法,直至找到对数似然函数的最大值。
\(L(w+\delta)-L(w)=\sum_{x,y}\tilde{P}(x,y)logP_{w+\delta}(y|x)-\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)\)
\(=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)-\sum_x\tilde{P}(x)log\frac{Z_{w+\delta}(x)}{Z_w(x)}\)
利用不等式取下界
$$-log\alpha\geq 1-\alpha,\alpha>0$$
得
\(L(w+\delta)-L(w) \geq \sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i+1-\sum_x\tilde{P}(x)\frac{Z_{w+\delta}(x)}{Z_w(x)}\)
\(=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp\sum_{i=1}^{n}\delta_if_i(x,y)\)
将下界记为\(A(\delta|w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\delta_if_i(x,y)+1-\sum_x\tilde{P}\sum_yP_w(y|x)exp\sum_{i=1}^n\delta_if_i(x,y)\)
在这里引入\(f^{\#}(x,y)=\sum_if_i(x,y)\),f_i是二值函数,\(f^{\#}(x,y)\)表示所有特征在(x,y)出现的次数。
因此有\(A(\delta|w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}\delta_if_i(x,y)+1-\sum_x\tilde{P}(x)\sum_yP_w(y|x)exp(f^{\#}(x,y)\sum_{i=1}^n\frac{\delta_if_i(x,y)}{f^{\#}(x,y)})\)