3 NLP之语言模型

1 条件概率

如果两个事件 A 和 B 不是互相独立的,并且知道事件 B 已经发生,我们就能得到关于 P(A)的信息。这反映为 A 在 B 中的条件概率(在B的条件下A的概率),记为P(A|B):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


2 贝叶斯定理

在这里插入图片描述
【先验概率】
P(A)称为"先验概率",即在不知道B事件发生的前提下,对A事件发生概率的一个主观判断。

【可能性函数】
是一个调整因子,即新信息事件B的发生调整,作用是,使得先验概率更接近真实概率。(可能性函数可以理解为新信息过来后,对先验概率的一个调整)

  • 如果可能性函数>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
  • 如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
  • 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。

【后验概率】
即在B事件发生之后,我们对A事件概率的重新评估。

在这里插入图片描述
【贝叶斯的底层思想】
如果能掌握一个事情的全部信息,当然能计算出一个客观概率,可是绝大多数决策面临的信息都是不全的,手中只有有限的信息。 既然无法得到全面的信息,就在信息有限的情况下,尽可能做出一个好的预测:在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。

【全概率公式】
全概率公式的作用是计算贝叶斯定理中的P(B)。假定样本空间S,由两个事件A与A‘组成的和(下左图):

在这里插入图片描述
这时发生新的一个事件B(上右图)

在这里插入图片描述
含义:如果A和A’构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。


3 语言建模

从统计角度看,自然语言中的一个句子s可以由任何词串构成,不过P(s)有大有小。如:

s1= 我刚吃过晚饭
s2= 刚我过晚饭吃
P(s1) > P(s2) (并不要求语法是完备的,可对任意s给出概率)

语言模型与句子是否合乎句法是没有关系。对于给定的句子s而言,通常P(s)是未知的 。

对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。


4 语言模型

根据语言样本估计出的概率分布P就称为语言L的语言模型。

在这里插入图片描述
语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性较大的识别结果。

任何语言片断都有存在的可能,只是可能性大小不同。对于一个文档片段或句子 s=w1w2…wn,统计语言模型是指概率P(w1w2…wn)的求解,

根据贝叶斯公式,有:

在这里插入图片描述
在这里插入图片描述
语言模型的建立
(1)确定模型的参数集合
(2)确定模型各参数的值(参数训练)

对于二元模型:

在这里插入图片描述
【语言模型存在的问题】
随着i的增长, wi 的历史在训练语料中出现的概率几乎为0

在这里插入图片描述


5 解决办法——>n元语法

【n元语法模型】
一个词出现的概率只依赖于它前面的n-1个词:

在这里插入图片描述
【二元语法模型(Bigram,n=2)】

在这里插入图片描述
在这里插入图片描述
【一元语法模型(Unigram,n=1)】

在这里插入图片描述
例子:

在这里插入图片描述


6 参数的估计

最大似然估计(Maximum likelihood estimation, MLE)

设试验的样本空间:

在这里插入图片描述

在相同情况下重复试验N次,观察到样本sk(1<=k<=n)的次数为nN(sk),那么,样本sk在这N次试验中的相对频率为:

在这里插入图片描述
当N越来越大时,相对频率qN(sk)就越来越接近sk的概率P(sk),即:

在这里插入图片描述
因此,通常用相对频率作为概率的估计值 。这种估计概率值的方法称为最大似然估计。

【二元语法模型参数P(wi|wi-1)的最大似然估计】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数据平滑技术——为了产生更准确的概率来调整最大似然估计的技术。


7 数据平滑技术

这里

  • Laplace法则、Lidstone法则
  • Good-Turing估计
  • 绝对折扣和线性折扣
  • Witten-Bell平滑算法
  • 扣留估计与交叉校验
  • 线性插值
  • Katz回退算法

【开发和测试模型的数据集】

统计自然语言处理中的一个最大的错误,是在训练数据上进行测试!!

【数据集】

1、训练数据

  • 主要的训练数据
  • 留存数据

2、训练数据

  • 开发测试集
  • 最终测试集

在这里插入图片描述
【如何选择测试数据?】

随机法:测试数据尽可能类似于训练数据(在流派、术语、作者和词表等方面)

数据块法:实际上最终使用的数据集和训练数据一定会有些许不同,因为随着时间的推移,语言在话题和结构上会有变化。

最好选择和测试数据相同的策略来保留数据作为留存数据,使留存数据更好地模拟测试数据。


8 基于词类的N-gram模型

在这里插入图片描述
在这里插入图片描述
p(w3 | w1 , w2) ≈ p(C3 | C1 , C2) p(w3 | C3 ),Ci→ wi所属的类

在这里插入图片描述
在这里插入图片描述
END

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值