基于统计学的分词方法可以借鉴2.2节的统计预言模型的思想,常用的有n_gram模型、隐马尔科夫模型、最大熵模型。由于我们本次使用统计预言模型为期刊文本分词,将对上述三个模型一一介绍并比较。
- n-gram模型
给定句子S,假定可由规则 A1,A2,A3,...Ak 这k个词组成,称之为规则A,则在规则A下出现这个句子的概率P(S)可表示为
PA(S)=P(A1,A2,A3,...Ak)
同理,在规则B和规则C下出现这个句子的概率P(S)可表示为
PB(S)=P(B1,B2,B3,...Bm)
PC(S)=P(C1,C2,C3,...Cn)
如果 PA(S)>PB(S),PA(S)>PC(S) 则认为A规则下的分词更加合理。