自然语言处理 (第5课 N元文法模型)

一、学习目标

1.学习语料库的概念
2.了解n元文法模型的定义以及相关问题
3.使用参数估计方法求解模型最优
4.使用数据平滑消除零概率现象
5.了解N元文法模型的一个应用

二、语料库

1.语料库(corpus)的定义:语言数据库,用于存放语言数据的文件。
2.语料库的分类:
在这里插入图片描述
3.语料库的应用:
在这里插入图片描述

三、N元文法模型定义

1.N元文法模型的定义:
在这里插入图片描述
历史基元是当前词语前面的词语。根据n的多少,可以进行分类:
在这里插入图片描述
例子如下:
在这里插入图片描述
2.句首、句末标志:
在这里插入图片描述

四、N元文法模型参数估计

1.语言模型的参数估计方法一般选择极大似然估计,而不使用最大后验估计,主要原因在于我们无法确立一个很好的先验概率分布。相关原理可见《机器学习(第2章)》的参数估计小节。
2.极大似然估计实现方法:
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
一个不正常的例子:
在这里插入图片描述
由于语料库的不存在“Cher read”的词对,导致出现0概率,由于最后乘算,就导致最终概率也为0。这显然是不合理的,这主要是语料库不足导致的,除了扩大语料库外,显然我们也可以设计一种方法去避免这种现象,即数据平滑

五、数据平滑

1.方法原理:
在这里插入图片描述
困惑度即将交叉熵进行幂级放大:
在这里插入图片描述
其中p(T)在语言模型中,就是:
在这里插入图片描述
2.实际上,我们并不需要真的去求困惑度最小的语言模型,因为已经有许多种方法:
在这里插入图片描述
为了减少篇幅,这里只展示加1法:
在这里插入图片描述
而针对前面出现0概率的例子,我们就能通过加1操作使结果不为0:
在这里插入图片描述
在这里插入图片描述

六、N元文法模型的应用

1.问题描述:对下面汉语句子进行分词才是正确的呢?
在这里插入图片描述
进行语言建模:
在这里插入图片描述
2.词典的拓展:由于原有词典并不能包含所有的词语,为了拓展足够多的正确的词汇,我们可以人为地拓展词典,方法与例子有:
在这里插入图片描述
3.而为了使用隐马尔可夫模型,我们需要对词序列转化为词性序列:
在这里插入图片描述
例如:
在这里插入图片描述
4.公式计算:(这里采用的是最大后验估计,实际中会有些难实现)

在这里插入图片描述
在这里插入图片描述

(4-9)是我们的目标函数,其包含两个部分,语言模型和生成模型,语言模型部分我们可以通过(4-10)、(4-11)来计算,生成模型由(4-12)来计算。最后求解出的W是最优的词序列,C是词性序列。

5.整体算法描述:
在这里插入图片描述

七、本章总结

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值