自然语言处理之语言模型综述

一 文法型语言模型

文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。

二 统计语言模型

统计语言模型常用的思想是用一个词在句子中的neighborhood表示该词

主要的统计语言模型有:

1.上下文无关模型

2.N-gram模型:考虑词形方面的特征

 (1)一元模型

 (2)二元模型

 (3)N元模型

3.N-pos模型:考虑词类词性方面的特征,前一个词的词类决定下一个词出现的概率。

4.基于决策树的语言模型

5.最大熵模型

6.动态、自适应、基于缓存的语言模型

7.Hyperspace Analogue to Language method (HAL)

HAL (Lund & Burgess, 1996)方法可以用一个co-occurrence matrix, 表示任意两个词相关性

8.Latent Semantic Analysis (LSA)

LSA (Deerwester et al., 1990; Landauer, Foltz, & Laham, 1998) 中, co-occurrence matrix是word-document矩阵,表示文档中出现某词的频率,统计后将其进行normalization

将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间,我们称之为隐含语义空间(Latent Sem

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值