最大熵模型

一 信息熵

1.自信息

i = -log(p(x))

某件事发生的概率越大,富含信息越少。例如明天太阳从东边出来这句话的有用的信息其实是很少的,但是明天要下雨这句话富含的信息就比前一句话多了。p(下雨)<p(太阳从东边出来)

2.熵

H(X)=-\sum_{ }^{ }P(x)logP(x)

自信息的期望

3.条件熵

其实还有互信息,平均互信息,交叉熵等等的概念,这里就不介绍了,以后会专门写一篇关于信息熵的。


二最大熵值模型

1.简介(参考了http://blog.csdn.net/lg1259156776/

吴军《数学之美》中关于最大熵的论述

最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。说白了,就是要保留全部的不确定性,将风险降到最小。

2.模型求解

首先要明确我们要解什么,

最大熵顾名思义使得熵H(p)最大,这里是条件熵。

为了求解方便将max H(p)变为 min -H(p)。

f为特征函数,比如明天下雨同时打雷概率1/10,那么f(下雨,打雷)=1,其他为0。

E是特征函数的期望,注意 f 的形式,其实E就可以理解成是一个一个约束条件。

求解第一步

利用拉格朗日乘子,整个求解过程很精彩,我加了自己的一点解释在公式旁边。

要注意\sum的下标,求解中很多有意思步骤都是利用\sum来完成的。

求解第二步

 

其实可以利用极大似然估计求解这个步骤

最终

最后将问题简化成了 求上述方程的最大值时,所对应的参数。这个步骤可以利用梯度下降,或者牛顿法就行操作

3.模型应用

最大熵值法在自然语言中有所应用,在自然语言应用这块下次再写

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值