一、概况
在训练语言模型的时候有几个常用词:折扣(discounting)、平滑(smoothing)、插值(interpolate),下面用一个例子简单介绍一下。
我们的训练语料里面有“a、b、c、d”四个词,其中以a、b开头的3gram有以下数据:
a b c 5次
a b d 10次
那么当我们需要计算p(c|ab)的概率的时候,可以使用最大似然估计
p(c|ab)=c(abc)c(ab) p(c|ab)=c(abc)c(ab)
插值方法:
p(a_z)=(c(a_z)>0)?g(a_z)+bow(a_)p(_z):bow(a_)p(_z) p(a_z)=(c(a_z)>0)?g(a_z)+bow(a_)p(_z):bow(a_)p(_z