nlp-形式语言与自动机-ch05-语言模型

1、语言模型的广泛应用:

基于统计模型的语音识别、机器翻译、汉语自动分词、句法分析。

2、n原语法模型(n-gram model)的优缺点:

优点:模型构建简单、直接

缺点:数据缺乏所以必须采用平滑算法。

3、n元语法(文法):

有很多方法可以将历史划分成等价类,其中,一种比较实际的做法是,将两个历史W(i-n+2)...W(i-1)W(i)和V(k-n+2)...V(k-1)V(k)映射到同一个等价类,当且仅当这两个历史最近的n-1(1<=n<=l)个词相同,即如果E(w(1)w(2)...w(i-1)w(i)) = E(v(1)v(2)...v(k-1)v(k)),当且仅当(W(i-n+2)...W(i-1)W(i))=(V(k-n+2)...V(k-1)V(k))。满足这个条件的语言模型称为n元语法或n元文法。

4、n取不同值的情况:

当n=1时,即出现在第i位上的词W(i)独立于历史时,一元文法被记作unigram或uni-gram或monogram;

当n=2时,即出现在第i位上的词w(i)仅与它前面的一个历史词w(i-1)有关,二元文法模型被称为一阶马尔科夫链(Markov chain)记作bigram或bi-gram;

当n=3时,即出现在第i位置上的词w(i)仅与它前面的两个历史词w(i-2)w(i-1ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值