统计语言模型是自然语言处理(Natural Language Processing,NLP)的基础模型,是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。
模型
假定S表示某个有意义的句子,由一连串特定顺序排列的词组成,这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,即S的概率P(S),则
。
利用条件概率的公式:
一般情况下:为更严谨的表示,表示
在句子s开头出现的概率,因为句子是有顺序的,因此利用的是条件概率,
出现的情况下,
出现的概率,
的概率计算依靠前面n-1个词。
当计算,仅存在一个参数;
,存在两个参数,计算
存在三个参数,但是以此类推
存在n个参数,难易计算,因此在此基础上马尔可夫提出了,一种马尔可夫假设:假设
出现的概率只前面N-1个词相关
,当N=2时,就是简单的二元模型(Bigram Model),当N=N时,就是常说的N元模型(N-gram Model)。
一般情况下