简单理解优化的尺度迭代法(IIS)


前言

本篇分别从IIS算法流程和IIS算法中所涉及公式的推导这两个方面来介绍IIS,旨在读者能理解如何使用IIS算法,以及掌握算法步骤中公式的来龙去脉。
为了保证阅读效率,一些前置知识点会被安排在文章末尾。
有任何的建议欢迎在评论区留言,随时看随时修改哦~谢谢大家【鞠躬


一、IIS算法流程

首先,确定模型输入输出。在这里插入图片描述
首先初始化,将权重初值设为0。
在这里插入图片描述
然后对K进行遍历:
在这里插入图片描述
已知在CRF中对于不同的x,y,会有不同的T,为了在下文中使用常量公式,我们定义松弛特征,即定义一个足够大的常量S
当S足够大,且s(x,y)≥0成立,这时特征总数可以取S
在这里插入图片描述
所以,可知对转移特征的更新方程为
在这里插入图片描述
同时,对状态特征的更新方程为
在这里插入图片描述
附带一提,下面两个期望值分别是样本分布下特征函数更新方程的期望值以及联合分布下特征函数的期望值:
在这里插入图片描述
P上面有小波浪的是样本分布,没有小波浪的是联合分布
到此为止称为算法S,只要将每一个更新方程的图片中涉及到的两种期望值代入中间一行δ的等式中,即可得到δ
得到极大改变量δk以后迭代wk
在这里插入图片描述
直到wk收敛,就可以得到权重参数极大值了。

但是,在算法S中需要使常数S足够大,那么这样一来每一步迭代的向量增量就会变大,算法收敛会变慢,因此我们引入算法T。
首先,算法T对每个观测序列X计算其特征总数最大值:
在这里插入图片描述
就不用再毫无头绪的定义S常量了。
这时关于转移特征参数的更新方程可以写成:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
接下来举例如何运用牛顿法求解:
在这里插入图片描述
得到极大改变量δk以后迭代wk
在这里插入图片描述
当wk趋于收敛时(δk越来越小),即可停止迭代,如果没有收敛,将新wk代入更新方程继续迭代。

二、IIS算法公式推导

1.对数似然函数改变量

在这里插入图片描述
将最大熵模型分别以Pw+δ和Pw代入上图第一行右边公式,得到第二行公式。
利用不等式在这里插入图片描述
我们可以得到一个下界,和BW算法相似,如果A≥B,那么B越大,A就越大
把对数似然函数改变量L(w+δ)-L(w),代入不等式得:
在这里插入图片描述
右端记为A(δ|w),得:
在这里插入图片描述
在这里插入图片描述
于是有:
在这里插入图片描述
如果能找到适当的δ使得下界提高,那么对数似然函数也会提高,就能逐渐逼近对数似然函数的极大值
可是当前下界A中的δ是一个向量,里面有一串变量,同时对向量进行优化很难,所以IIS便希望一次只优化其中一个变量δi,而吧其他变量δj视为常量,i≠j。
于是IIS引进了一个量在这里插入图片描述
因为f是二值函数,所以在表示特征在(x,y)出现的次数时,使用f#(x,y)来表示,在实际公式中会选用任意大写字母(T,S,M)来表示他。
这个jensen’s 不等式的前提条件是函数为凸函数【这里我们的函数是指数函数,所以函数为凸函数】
在这里插入图片描述
,以及
在这里插入图片描述
在这里插入图片描述
所以A下界函数可以改写为
在这里插入图片描述
如我们之前所说,为了在多个变量的等式中求δi,需要对δi求偏导数。因此
在这里插入图片描述
在该式子中除了δi外不再含有任何其他变量,令偏导数结果为0,得到
在这里插入图片描述
这便是在求转移特征函数参数极大值,和状态特征函数参数极大值时,公式的来源。

2.特征数为常量与变量的不同算法

在这里插入图片描述
因为该函数的意义是特征出现的个数,因为特征函数结果为1意味着特征出现,0意味着特征没有出现,所以只要对特征函数集求和就可以得到特征出现的个数了。
那么这里f#(x,y)的结果如果是常数,即不管x,y取什么值,f#(x,y)的结果都不变,那么可以表示成
在这里插入图片描述
如果随着x,y的取值改变,f#(x,y)的结果也在改变,那就要使用牛顿法,这里直接套用牛顿法公式。
在这里插入图片描述
在这里插入图片描述

3.特征方程的下标

这里我再补充一下关于特征函数k,l,K1,K2的知识点
在这里插入图片描述
在这里插入图片描述
图片引自知乎-条件随机场中特征函数如何理解?-隔壁小王
在这里插入图片描述

三、前置内容

a) 两种分布:样本分布、联合分布

样本分布,联合分布是两种符号哦,P上加一个波浪号~的是样本分布,就只是总体的一部分,他可能有代表性,也可能充满着特例。然后联合分布是总体的概率分布。

b) 最大熵模型

最大熵模型的公式为:
在这里插入图片描述
在这里插入图片描述
和CRF模型很像
CRF模型的公式为:
在这里插入图片描述

c) 对数似然函数

对数似然函数的公式为:

在这里插入图片描述
其他算法中的对数似然函数公式:
在这里插入图片描述

四、引用

1)李航 (2011). 《统计学习方法》

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值