NLP学习三 语言模型

n元语法模型的基本概念和常用的数据平滑方法

n元语法

对于一个由L个基元组成的句子s=w1w2w3……wl,概率计算公式可以表示为:
概率计算公式
即,第i个词是由前面已经产生的词决定的。如果考虑所有前面已经产生的基元,计算当前基元的概率,这样会需要计算大量的先验概率。如计算第i个词的概率,在考虑前面i-1个基元的情况下,一共需要计算Li个先验概率。首先带来的问题是,需要计算大量先验概率,其次,绝大多数的前i-1个基元的组合是不会出现在训练材料中。因此,(如果将生成第i个基元需要参考的前面的基元叫做参考基元)需要减少参考基元的数量。其中第i个基元和前面的参考基元的数量之和为n,上述条件的语言模型叫做n元文法或n元语法。 其中,当n=1的时候,第i个位置的基元与前面的基元没有关系。当n=2时,叫做二元文法模型,也被称为一阶马尔科夫链。在实际应用中,取n=3的情况比较多。

对于二元文法模型,为了使p(w~i~|w~i-1~)有意义,在句首加入一个句首标记<BOS>;为了使所有的字符串的概率之和为1,需要在句末加入一个句尾标记,并使之包含在概率计算的等式中。

语言模型性能评价:暂无

数据平滑:数据平滑技术用来解决词的统计概率为零概率这种问题的。平滑处理的基本思想是“劫富济贫”,即提高低概率,降低高概率,使概率分布趋于平均。
一种最简单的平滑技术:加一法

语言模型自适应方法

语言模型一般会有跨领域的脆弱性和独立性假设的无效性问题。
跨领域的脆弱性即语言模型对训练文本的类型、主题和风格等都十分敏感,而不同领域的语料在语言使用规律上往往存在差异。
独立性假设的无效性:例如n元语言模型的前提假设为一段文本的当前词只与他前面的n-1个词相关,但这种假设在很多情况下不成立。

为了提高语言模型对语料的类型、主题、领域、类型等因素的适应性,提出了自适应语言模型。有基于缓存的语言模型、基于混合方法的语言模型和基于最大熵的语言模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值