笔记,总结纪录自《统计自然语言处理(第二版)(宗成庆)》
语言模型(language model, LM)在自然语言处中,尤其是基于统计模型的语音识别、机器翻译、汉语自动分词、句法分析等相关研究中都有广泛的应用。
其中最主要采用的是n元语法模型(n-gram),这种模型构建简单、直接,但因为数据缺乏需要采用平滑(smoothing)算法。
一个语言模型中,通常构建为字符串s的概率分布p(s),反映的是字符串s作为一句子出现的概率。
对于一个由 l 个基元(基元 可以是字、词、或短语等)构成的句子
p(s)=p(w1)p(w2| w1)p(w3| w1w2)⋯p(wl| w1⋯wl−1) =∏li=1p(wi| w1⋯wi−1)
其中,第 i(1≤i≤l) 个词的概率是由已经产生的 i−1 个词 w1w2⋯wi−1 决定的,一般称第 i−1 个词为第 i 个词的历史。然而,这种计算方法,随着词长度的增加,不同的历史数目将会按指数级增长。因此,通过将历史划分为等价类,即n元语法或n元文法(n-gram)。一般n取值不超