机器学习--最大熵模型

最新推荐文章于 2021-07-22 19:32:51 发布

Better-1

最新推荐文章于 2021-07-22 19:32:51 发布

阅读量477

点赞数

分类专栏：机器学习

原文链接：https://www.jianshu.com/p/bdaa390fde9b

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

其实说到底也就通过条件熵最大和约束条件，得到原始问题maxmin，再通过对偶条件转化为minmax（更好求），然后分别求导，得到结果。

为什么是使得条件熵最大，H§其实就是在p(y|x)，在x的约束条件下取得H§的最大。又因为Ep的假设，经验分布和要求的分布是相等的，那么就可以进一步拆成下式–也就是条件熵。

在这里插入图片描述
归结起来就是两个点： 1、条件熵极大化 2、模型的分布P(X,Y) = P(Y|X)*P(X)与经验分布的期望一致。3、在x的条件下概率之和等于1.

最大熵模型指出，在预测一个样本或者一个事件的概率分布时，首先应当满足所有的约束条件，进而对未知的情况不做任何的主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。

最大熵模型其实也就是约束最优化问题，求条件熵的极大。

熵–熵最大的模型是最好的模型。–一般来说没有多余约束条件，就认为是均匀分布–熵最大。
条件熵：
在这里插入图片描述

经验分布与特征函数结合便能代表概率模型需要满足的约束，只需使得两个期望项相等。最右侧是经验分布(也就是从数据的分布得到的)：
在这里插入图片描述

在这里插入图片描述

因此可以得到最大熵模型的原始问题：

原始问题的最优化：

引入拉格朗日函数的对偶性：
在这里插入图片描述
则最优化的对偶问题为：
求解的话就是先对内层进行极小化，再对外层进行极大化。

因为P之和为1

令Zw(x)表示exp(1-w0)

就得出了P(y|x)和w的关系，从而可以把对偶函数ψ(w)里面的所有的P(y|x)替换成用w表示，这样对偶函数ψ(w)就是全部用w表示了。接着我们对ψ(w)求极大化，就可以得到极大化时对应的w向量的取值，带入P(y|x)和w的关系式，从而也可以得到P(y|x)的最终结果。

对ψ(w)求极大化，由于它是连续可导的，所以优化方法有很多种，比如梯度下降法，牛顿法，拟牛顿法都可以。对于最大熵模型还有一种专用的优化方法，叫做改进的迭代尺度法。

最大熵模型的优缺点

优点：
最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度
缺点：
1．由于约束条件的个数往往是跟样本的数量有关，因此当样本数量越来越多的时候，对应的约束条件也会相应增加，这样就会导致计算量越来越大，迭代速度越来越慢，这在实际应用中很难。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。