一 文法型语言模型
文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。
二 统计语言模型
统计语言模型常用的思想是用一个词在句子中的neighborhood表示该词
主要的统计语言模型有:
1.上下文无关模型
2.N-gram模型:考虑词形方面的特征
(1)一元模型
(2)二元模型
(3)N元模型
3.N-pos模型:考虑词类词性方面的特征,前一个词的词类决定下一个词出现的概率。
4.基于决策树的语言模型
5.最大熵模型
6.动态、自适应、基于缓存的语言模型
7.Hyperspace Analogue to Language method (HAL)
HAL (Lund & Burgess, 1996)方法可以用一个co-occurrence matrix, 表示任意两个词相关性
8.Latent Semantic Analysis (LSA)
LSA (Deerwester et al., 1990; Landauer, Foltz, & Laham, 1998) 中, co-occurrence matrix是word-document矩阵,表示文档中出现某词的频率,统计后将其进行normalization
将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间,我们称之为隐含语义空间(Latent Sem