3 NLP之语言模型

最新推荐文章于 2024-06-20 02:29:46 发布

流动的风与雪

最新推荐文章于 2024-06-20 02:29:46 发布

阅读量805

点赞数

分类专栏： NLP 文章标签： nlp NLP 自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40061206/article/details/109554991

版权

NLP 专栏收录该内容

6 篇文章 5 订阅

订阅专栏

文章目录

1 条件概率
2 贝叶斯定理
3 语言建模
4 语言模型
5 解决办法——>n元语法
6 参数的估计
7 数据平滑技术
8 基于词类的N-gram模型

1 条件概率

如果两个事件 A 和 B 不是互相独立的，并且知道事件 B 已经发生，我们就能得到关于 P(A)的信息。这反映为 A 在 B 中的条件概率（在B的条件下A的概率），记为P(A|B)：

在这里插入图片描述

2 贝叶斯定理

在这里插入图片描述
【先验概率】
P(A)称为"先验概率"，即在不知道B事件发生的前提下，对A事件发生概率的一个主观判断。

【可能性函数】
是一个调整因子，即新信息事件B的发生调整，作用是，使得先验概率更接近真实概率。（可能性函数可以理解为新信息过来后，对先验概率的一个调整）

如果可能性函数>1，意味着"先验概率"被增强，事件A的发生的可能性变大；
如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；
如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。

【后验概率】
即在B事件发生之后，我们对A事件概率的重新评估。

在这里插入图片描述
【贝叶斯的底层思想】
如果能掌握一个事情的全部信息，当然能计算出一个客观概率，可是绝大多数决策面临的信息都是不全的，手中只有有限的信息。既然无法得到全面的信息，就在信息有限的情况下，尽可能做出一个好的预测：在主观判断的基础上，可以先估计一个值（先验概率），然后根据观察的新信息不断修正(可能性函数)。

【全概率公式】
全概率公式的作用是计算贝叶斯定理中的P(B)。假定样本空间S，由两个事件A与A‘组成的和(下左图)：

在这里插入图片描述
这时发生新的一个事件B（上右图）

在这里插入图片描述
含义：如果A和A’构成一个问题的全部（全部的样本空间），那么事件B的概率，就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。

3 语言建模

从统计角度看，自然语言中的一个句子s可以由任何词串构成，不过P(s)有大有小。如：

s1= 我刚吃过晚饭
s2= 刚我过晚饭吃
P(s1) > P(s2) (并不要求语法是完备的,可对任意s给出概率)

语言模型与句子是否合乎句法是没有关系。对于给定的句子s而言，通常P(s)是未知的。

对于一个服从某个未知概率分布P的语言L，根据给定的语言样本估计P的过程被称作语言建模。

4 语言模型

根据语言样本估计出的概率分布P就称为语言L的语言模型。

在这里插入图片描述
语言建模技术首先在语音识别研究中提出，后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中，如果识别结果有多个，则可以根据语言模型计算每个识别结果的可能性，然后挑选一个可能性较大的识别结果。

任何语言片断都有存在的可能，只是可能性大小不同。对于一个文档片段或句子 s=w1w2…wn，统计语言模型是指概率P(w1w2…wn)的求解，

根据贝叶斯公式，有：

在这里插入图片描述

语言模型的建立
（1）确定模型的参数集合
（2）确定模型各参数的值（参数训练）

对于二元模型：

在这里插入图片描述
【语言模型存在的问题】
随着i的增长， wi 的历史在训练语料中出现的概率几乎为0

在这里插入图片描述

5 解决办法——>n元语法

【n元语法模型】
一个词出现的概率只依赖于它前面的n-1个词：

在这里插入图片描述
【二元语法模型（Bigram，n=2）】

在这里插入图片描述

【一元语法模型（Unigram，n=1）】

在这里插入图片描述
例子：

在这里插入图片描述

6 参数的估计

最大似然估计(Maximum likelihood estimation, MLE)

设试验的样本空间：

在这里插入图片描述

在相同情况下重复试验N次，观察到样本s_k（1<=k<=n)的次数为n_N(s_k)，那么，样本s_k在这N次试验中的相对频率为：

在这里插入图片描述
当N越来越大时，相对频率q_N(s_k)就越来越接近s_k的概率P(s_k)，即：

在这里插入图片描述
因此，通常用相对频率作为概率的估计值。这种估计概率值的方法称为最大似然估计。

【二元语法模型参数P(wi|wi-1)的最大似然估计】

在这里插入图片描述

数据平滑技术——为了产生更准确的概率来调整最大似然估计的技术。

7 数据平滑技术

看这里。

Laplace法则、Lidstone法则
Good-Turing估计
绝对折扣和线性折扣
Witten-Bell平滑算法
扣留估计与交叉校验
线性插值
Katz回退算法

【开发和测试模型的数据集】

统计自然语言处理中的一个最大的错误，是在训练数据上进行测试！！

【数据集】

1、训练数据

主要的训练数据
留存数据

2、训练数据

开发测试集
最终测试集

在这里插入图片描述
【如何选择测试数据？】

随机法：测试数据尽可能类似于训练数据（在流派、术语、作者和词表等方面）

数据块法：实际上最终使用的数据集和训练数据一定会有些许不同，因为随着时间的推移，语言在话题和结构上会有变化。

最好选择和测试数据相同的策略来保留数据作为留存数据，使留存数据更好地模拟测试数据。

8 基于词类的N-gram模型

在这里插入图片描述

p(w3 | w1 , w2) ≈ p(C3 | C1 , C2) p(w3 | C3 )，Ci→ wi所属的类

在这里插入图片描述

END

流动的风与雪

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
3 NLP之语言模型

根据语言样本估计出的概率分布P就称为语言L的语言模型。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。