这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重写,另外本文末尾附上了最大熵模型的实现。
从样本中我们能得到的第一个规则就是in可能被翻译成的法语词汇有:
{
dans,
也就是说,我们可以给模型p施加第一个约束条件:
p(dans)+p(en)+
这个等式是翻译模型可以用到的第一个对样本的统计信息。显然,有无数可以满足上面约束的模型p可供选择,例如:
p(dans)=1,即这个模型总是预测dans
或者
p(pendant)=1/2and
这两个模型都只是在没有足够经验数据的情况下,做的大胆假设。事实上我们只知道当前可能的选项是5个法语词汇,没法确定究竟哪个概率分布式正确。那么,一个更合理的模型假设可能是:
p(dans)= 1/5
p(en)= 1/5
p(à)= 1/5
p(aucours de) = 1/5
p(pendant)= 1/5
即该模型将概率均等地分给5个词汇。但现实情况下,肯定不会这么简单,所以我们尝试收集更多的经验知识。假设我们从语料中发现有30%的情况下,in会被翻译成