逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)

最新推荐文章于 2024-08-24 20:24:25 发布

血影雪梦

最新推荐文章于 2024-08-24 20:24:25 发布

阅读量4k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法 iis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xueyingxue001/article/details/50773917

版权

机器学习专栏收录该内容

61 篇文章 20 订阅

订阅专栏

声明：

1，本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结，不得用作商用，欢迎转载，但请注明出处（即：本帖地址）。

2，由于本人在学习初始时有很多数学知识都已忘记，所以为了弄懂其中的内容查阅了很多资料，所以里面应该会有引用其他帖子的小部分内容，如果原作者看到可以私信我，我会将您的帖子的地址付到下面。

3，如果有内容错误或不准确欢迎大家指正。

4，如果能帮到你，那真是太好了。

IIS的推导过程

IIS是一种最大熵学习模型的最优化算法，其推导过程如下：

目标是通过极大似然估计学习模型参数求对数似然函数的极大值。

IIS的想法是：假设最大熵模型当前的参数向量是λ = (λ1, λ2, …, λn)^T，我们希望找到一个新的参数向量λ + δ= (λ1+δ1, λ2+δ2, …, λn+δn)^T，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法F：λ ->λ+δ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

对于给定的经验分布，模型参数从λ到λ+δ，对数似然函数的该变量是

PS：上面 >= 的推导是根据不定时：-loga >= 1 - a， a > 0

将上述求得的结果(最后一行)记为A(δ| λ)，于是有：

L( λ+ δ ) – L( λ ) >= A(δ | λ)

为了进一步降低这个下界，即缩小A(δ | λ)，引入一个变量：

因为fi是二值函数，故f^#(x,y)表示的是所有特征(x, y)出现的次数，然后利用Jason不等式，可得：

我们把上述式子求得的A(δ | λ)的下界记为B(δ | λ)，即：

相当于B(δ | λ)是对数似然函数增加量的一个新的下界，可记作：L(λ+δ)-L(λ) >= B(δ | λ)。

接下来，对B(δ| λ)求偏导，得：

此时得到的偏导结果只含δ，除δ之外不再含其它变量，令其为0，可得：

从而求得δ，问题得解。

IIS算法描述

输入：

特征函数f1, f2, …,fn；经验分布，模型P_λ(y|x)

输出：

最优参数值λ_i^*；最优模型P_λ。

解：

1，对所有i∈{1, 2, …, n}，取初值λi = 0

2，对每一i∈{1, 2, …, n}：

a)令δi是如下方程(这里将其称作方程一)

的解，这里：

b)更新λi的值：λi <- λi + δi

3，如果不是所有λi都收敛，则重复步骤2。

这一算法的关键步骤是a)，即求解a)中方程的δi。

如果f^#(x, y) 是常数，即对任何x, y，有f^#(x,y) = M，那么δi可以显示的表示成：

如果f^#(x, y) 不是常数，那么必须通过数值计算求δi，而简单有效的方法是牛顿法。以g(δi) = 0，表示上面的方程一，牛顿法通过迭代求的δi，使得g(δi^*)= 0。迭代公式是：

求得了δ，便相当于求得权值λ，最终将λ 回代到下式中：

即得到最大熵模型的最优估计。

参考：

http://blog.csdn.net/v_july_v/article/details/40508465?utm_source=tuicool&utm_medium=referral

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。