数学之美笔记（十四）

最新推荐文章于 2022-09-12 16:25:04 发布

weixin_34112208

最新推荐文章于 2022-09-12 16:25:04 发布

阅读量70

点赞数

原文链接：https://my.oschina.net/shou1156226/blog/384748

版权

最大熵模型：
在对一个随机事件的概率分布进行预测时，我们的预测应当满足所有已知条件，而对未知情况不作任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，信息熵最大的模型。
匈牙利著名数学家、信息论最高奖香农奖得主希萨证明，对任何一组不自相矛盾的信息，这个最大熵模型不仅存在，而且是唯一的。此外，它们都有同一个非常简单的形式——指数函数。
最大熵模型的训练
假定我们搜索的排序需要考虑n种特征，{x₁，x₂，...，x_n，}，需要排序的网页是d，即使这些特征互相独立，对应的最大熵模型也应该是很长的：
P（d | x₁，x₂，...x_n）=（1 / Z（x₁，x₂，...，x_n））e^{λ₁（x₁，d）+λ₂（x₂，d）+. . .+λ_n（x_n，d）}。
其中Z=Σe^{λ₁（x₁，d）+λ₂（x₂，d）+. . .+λ_n（x_n，d}^）。
这个模型里有许多参数需要通过模型的训练来获得。
最原始的最大熵模型训练方法是通用迭代算法GIS（Generalized Iterative Scaling）：
1. 假定第0次迭代的初始模型为等概率的均匀分布。
2. 用第N次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的，就把相应的模型参数变小。否则，将它们变大。
3. 重复步骤b直至收敛。