所谓语言模型,就是利用数学的方法描述语言规律。而统计语言模型,就是用句子S出现的概率P(S)来刻画句子的合理性(而不进行语言学分析处理),这是统计自然语言处理的基础模型。
本次使用马尔科夫模型进行理解:
假设句子S=w1,w2,…,wn,其中,wi可以暂时看作句子中的第i个词(在后面会进行具体介绍)。由于自然语言是上下文相关的信息传递方式,可以很自然地讲句子S出现的概率定义如下:
P(S) = P(w1)P(w2|w1)...P(wn|w1,w2,...wn-1)
特别地,当i=1时,P(w1|w0) = P(w1),概率定义与条件概率相同。
在统计语言模型中,输入是句子S,输出是句子S的概率P(S),模型参数是各个P,即,P(wi|w1,w2,…,wi-1)。
wi被称为统计基元,可以是字、词、短语、词类等等,通常以“词”代替;
wi由w1,w2,…wi-1决定,由特定