语言模型
n-gram语言模型
什么是n-gram语言模型:n-gram语言模型是基于统计建立的,可以由此计算概率的模型。
计算不同的概率使语言模型有两种应用:
- 计算一个句子的合理程度。
- A language model can take a list of words, and attempt to predict the word that follows them. 即通过一些预先输入的词预测下一个词,如输入法的预测功能。
应用1:
计算概率:
P ( w 1 w 2 w 3 . . . w m ) ( 1 ) P(w_1w_2w_3...w_m)\qquad(1) P(w1w2w3...wm)(1)
根据链式法则,计算式(1)即为计算:
P ( w 1 w 2 w 3 . . . w m ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 w 2 ) . . . P ( w m ∣ w 1 w 2 w 3 . . . w m − 1 ) ( 2 ) P(w_1w_2w_3...w_m) = P(w_1)P(w_2|w_1)P(w_3|w_1w_2)...P(w_m|w_1w_2w_3...w_{m-1})\qquad(2) P(w1w2w3...wm)=P(w1)P(w2∣w1)P(w