一、n-gram模型概念
n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关,可以表示为:
当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1,...,Wi-1)。假设词表的大小为100,000,那么n-gram模型的参数数量为100,000n。n越大,模型越准确,也越复杂,需要的计算量越大。最常用的是bigram,其次是unigram和trigram,n取≥4的情况较少。
二、n-gram模型的参数估计
模型的参数估计也称为模型的训练,n-gram模型的参数的估计表达式如下:
一般采用最大似然估计(Maximum Likelihood Estimation,MLE)的方法对模型的参数进行估计: