吴军数学之美又看了一遍,写的有深有浅,比如这次,有不同的感觉。
统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现
r
次数的词有
N=∑r=1∞rNr
当 r 较小时,我们使用
dr=(r+1)Nr+1Nr
这样可以保证
N=∑rdrNr
这里我们考虑一个经验,一般来说 r 越大,词的数量