语言统计模型:
设S表示一连串特定顺序排列的词:w1,w2,w3,…,wn,S可能是一个有意义的句子。
S在文本中出现的可能性,即P(S):
P(S)=P(w1)*P(w2|w1)*P(w3| w1 w2)…*p(wn| w1 w2 … wn-1)
p(w1)表示w1出现的概率,p(w2|w1)表示w1出现的前提下,w2出现的概率,由于以上模型的复杂,假设wi出现只依赖于wi-1(马尔科夫假设)。
即:P(S)=P(w1)*P(w2|w1)*P(w3|w2)…*P(wn|wn-1)。
模型求解: