《A maximum entropy approach to natural language processing》这篇论文是最大熵的经典论文。但是这篇论文仍然没有把最大熵模型完全推导出来,有些地方还是直接给的结论,这里补充两个论文中没有给出证明的地方,1、p(y|x)的推导,2、最大熵全局唯一极值的证明。内容来自清华大学最大熵的ppt
第一个问题:
L拉格朗日法把有约束的最优化问题转化为无约束问题的式子,对应论文式子(7)
求L取得极值时的p(y|x)
当导数等于0时,有
对于给定x,任意的y,所有P(y|x)的和为1,即
令
于是得到论文中的结论:
第二个问题:最大熵模型,有全局唯一的极值,不必担心收敛于一个次优解
一阶导数:
二阶导数:
可见,一阶导数存在等于0的情况,二阶导数恒小于0,最大熵模型,有全局唯一的极值,不必担心收敛于一个次优解