最大熵模型

最新推荐文章于 2024-11-14 16:47:38 发布

午匀需

最新推荐文章于 2024-11-14 16:47:38 发布

阅读量185

点赞数 1

分类专栏：机器学习文章标签：最大熵值法机器学习信息熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38126215/article/details/82759051

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一信息熵

1.自信息

i = -log(p(x))

某件事发生的概率越大，富含信息越少。例如明天太阳从东边出来这句话的有用的信息其实是很少的，但是明天要下雨这句话富含的信息就比前一句话多了。p(下雨)<p(太阳从东边出来)

2.熵

$H(X)=-\sum_{ }^{ }P(x)logP(x)$

自信息的期望

3.条件熵

其实还有互信息，平均互信息，交叉熵等等的概念，这里就不介绍了，以后会专门写一篇关于信息熵的。

二最大熵值模型

1.简介（参考了http://blog.csdn.net/lg1259156776/）

吴军《数学之美》中关于最大熵的论述

最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以人们称这种模型叫“最大熵模型”。我们常说，不要把所有的鸡蛋放在一个篮子里，其实就是最大熵原理的一个朴素的说法，因为当我们遇到不确定性时，就要保留各种可能性。说白了，就是要保留全部的不确定性，将风险降到最小。

2.模型求解

首先要明确我们要解什么，

最大熵顾名思义使得熵H(p)最大，这里是条件熵。

为了求解方便将max H(p)变为 min -H(p)。

f为特征函数，比如明天下雨同时打雷概率1/10，那么f(下雨，打雷)=1，其他为0。

E是特征函数的期望，注意 f 的形式，其实E就可以理解成是一个一个约束条件。

求解第一步

利用拉格朗日乘子，整个求解过程很精彩，我加了自己的一点解释在公式旁边。

要注意 $\sum$ 的下标，求解中很多有意思步骤都是利用 $\sum$ 来完成的。

求解第二步

其实可以利用极大似然估计求解这个步骤

最终

最后将问题简化成了求上述方程的最大值时，所对应的参数。这个步骤可以利用梯度下降，或者牛顿法就行操作

3.模型应用

最大熵值法在自然语言中有所应用，在自然语言应用这块下次再写

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。