最大熵分类模型

最新推荐文章于 2022-05-30 16:02:53 发布

-倾城之恋-

最新推荐文章于 2022-05-30 16:02:53 发布

阅读量589

点赞数

分类专栏：机器学习统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/P081513083/article/details/96090672

版权

机器学习同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

熵是衡量不确定性的度量，最大熵原理是统计学习的常用原则。最大熵原理引用到分类模型即可得到最大熵模型。最大熵原理，符合观察（条件）的所有模型中，熵最大的模型为最好的模型。直观的说就是概率模型要符合已有事实，也就是约束条件。而对于不确定的部分，认为都是等可能的。这里利用熵最大来表示等可能性。
假设分类模型是一个条件概率分布 $P (Y ∣ X)$ ，最大熵模型最大化的是条件熵：
$H(Y|X)=\sum\limits_xP(x)H(Y|x)=-\sum\limits_xP(x)\sum\limits_yP(y|x)log(P(y|x))$
$H(Y|X)=-\sum\limits_{x,y} \overline P(x)P(y|x)log(P(y|x))$
约束条件：
$\sum\limits_{x,y} \overline{P}(x,y)f_i(x,y)=\sum\limits_{x,y} P(y|x)\overline{P}(x)f_i(x,y), i=1,...,n$
$\sum\limits_y P(y|x)=1$
由带约束的最大条件熵原则，原本通过拉格朗日乘子法以及对偶性求解，但是中间过程可以导出最大熵模型的对数线性模型模式。又因为对偶函数极大化等价于最大熵模型的极大似然估计，所以利用最大似然估计原则对导出的对数线性模型求解。

最大熵分类模型关键点：

$P (Y ∣ X)$ 中的X是一个样本，含有多个特征 $x_1,...x_d]$ ，所以有多个特征函数 $f(x_i,y)$
$X$ 可以接受不同维数的样本。预测时，所有维度与 $Y$ 形成的数据对被送往特征函数集匹配，匹配上时取出其对应权重。如果用词袋模型对文本建模，则每个样本维度是一样的。实际上任意维数的样本对 $(X, Y)$ 都可以通过特征函数集 ${f_i(x,y)\}_{i=1}^{d}$ 被映射成一个 $d$ 维向量，然后与 $d$ 维的权重 $w$ 相乘。如下式：
$P(y|x)=\frac{1}{Z_w(x)}exp(\sum\limits_{i=1}^dw_if_i(x,y))$
$Z_w(x)=\sum\limits_yexp(\sum\limits_{i=1}^dw_if_i(x,y))$
因此与逻辑回归非常类似。
注意最大熵模型和逻辑回归，条件随机场的区别与联系。
https://blog.csdn.net/wkebj/article/details/77965714
http://yjliu.net/blog/2012/07/22/easy-implementation-on-maxent.html
https://blog.csdn.net/littlely_ll/article/details/79082776
https://zhuanlan.zhihu.com/p/51638729
https://zhuanlan.zhihu.com/p/29978153

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。