本篇博客只是最近两天看最大熵模型的一个理解和简单总结,只为了阐述清楚最大熵模型,不涉及公式推导。为了怕很快忘记,特意综述一下,如有不正确之处欢迎指正。
-
最大熵原理
熵:某种意义上说,概率是度量随机事件的确定性,熵是度量随机事件的不确定性。对于随机变量的概率分布来说,随机变量的分布越均匀,其熵越大。
最大熵原理:我们构建一个概率模型对某个随机变量的分布进行预测时,发现有很多概率模型满足给定约束条件,他们都可以准确表述随机变量的分布,那么哪个模型是最好的模型呢?在满足所有约束条件的概率模型集合中,选取熵最大的模型作为最好的模型,这就是最大熵原理。它是概率模型学习的一个准则。
经过大量的统计,在英文翻译成法文时候,英语单词in,会被翻译成法语单词 { dans, en, à, au cours de, pendant } 5个中的一个,我们假设我们的翻译模型为P,选择某个法语单词x作为英语单词in的法语翻译的概率,记为:P(x)。那么该模型首要的约束条件就是:
这是我们对翻译过程的一个统计信息,这是一个约束条件,我们假设只有这个约束条件,那么满足该约束条件的模型有很多。比如某个模型满足:
那么该翻译模型会将英文单词in一直翻译成dans。再比如某个翻译模型满足: