1、 概率语言模型
一句话的概率公式:
根据一句话中的前文预测下一个词:
根据链式概率法则:
根据马尔科夫假设,当前词只和前n个词有关系:
2. 大名鼎鼎的 n-gram模型
为模型想要预测的下一个词,为句子中的历史词语。
之后,我们利用极大似然估计优化模型:
说起来极大似然很高级,在实现上就是统计各种情况下出现的次数,然后再除以因子来归一化。
n-gram的优点:
1. 常见的Bigram,Trgram 实现简单,能够很好地应用在一些经典场景中,例如检查拼写错误(极大似然句子概率)。
2. 常见搜索引擎的输入下拉帮助,就是通过n-gram来实现的。
3. 可解释性强,易于理解和调试。
4. 易于增量实现和并行训练。
n-gram的缺点:
1. 需要解决数据稀疏性的问题ÿ