1、语言模型的广泛应用:
基于统计模型的语音识别、机器翻译、汉语自动分词、句法分析。
2、n原语法模型(n-gram model)的优缺点:
优点:模型构建简单、直接
缺点:数据缺乏所以必须采用平滑算法。
3、n元语法(文法):
有很多方法可以将历史划分成等价类,其中,一种比较实际的做法是,将两个历史W(i-n+2)...W(i-1)W(i)和V(k-n+2)...V(k-1)V(k)映射到同一个等价类,当且仅当这两个历史最近的n-1(1<=n<=l)个词相同,即如果E(w(1)w(2)...w(i-1)w(i)) = E(v(1)v(2)...v(k-1)v(k)),当且仅当(W(i-n+2)...W(i-1)W(i))=(V(k-n+2)...V(k-1)V(k))。满足这个条件的语言模型称为n元语法或n元文法。
4、n取不同值的情况:
当n=1时,即出现在第i位上的词W(i)独立于历史时,一元文法被记作unigram或uni-gram或monogram;
当n=2时,即出现在第i位上的词w(i)仅与它前面的一个历史词w(i-1)有关,二元文法模型被称为一阶马尔科夫链(Markov chain)记作bigram或bi-gram;
当n=3时,即出现在第i位置上的词w(i)仅与它前面的两个历史词w(i-2)w(i-1ÿ