一 信息熵
1.自信息
i = -log(p(x))
某件事发生的概率越大,富含信息越少。例如明天太阳从东边出来这句话的有用的信息其实是很少的,但是明天要下雨这句话富含的信息就比前一句话多了。p(下雨)<p(太阳从东边出来)
2.熵
自信息的期望
3.条件熵
其实还有互信息,平均互信息,交叉熵等等的概念,这里就不介绍了,以后会专门写一篇关于信息熵的。
二最大熵值模型
1.简介(参考了http://blog.csdn.net/lg1259156776/)
吴军《数学之美》中关于最大熵的论述
最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。说白了,就是要保留全部的不确定性,将风险降到最小。
2.模型求解
首先要明确我们要解什么,
最大熵顾名思义使得熵H(p)最大,这里是条件熵。
为了求解方便将max H(p)变为 min -H(p)。
f为特征函数,比如明天下雨同时打雷概率1/10,那么f(下雨,打雷)=1,其他为0。
E是特征函数的期望,注意 f 的形式,其实E就可以理解成是一个一个约束条件。
求解第一步
利用拉格朗日乘子,整个求解过程很精彩,我加了自己的一点解释在公式旁边。
要注意的下标,求解中很多有意思步骤都是利用来完成的。
求解第二步
其实可以利用极大似然估计求解这个步骤
最终
最后将问题简化成了 求上述方程的最大值时,所对应的参数。这个步骤可以利用梯度下降,或者牛顿法就行操作
3.模型应用
最大熵值法在自然语言中有所应用,在自然语言应用这块下次再写