自然语言处理-----语言模型 Language Model

最新推荐文章于 2024-08-04 15:51:50 发布

丁磊_Ml

最新推荐文章于 2024-08-04 15:51:50 发布

阅读量2.1k

点赞数 4

分类专栏：自然语言处理文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MosBest/article/details/107630100

版权

自然语言处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

Language Model(LM) 简介
Chain Rule
sparsity 稀疏性问题
马尔可夫假设
Language Model: Unigram, Bigram, N-gram
举例：Unigram, Bigram 模型的训练过程和使用
- Unigram
- Bigram
语言模型的评估-----Perplexity
平滑函数
语言模型的应用：生成句子

Language Model(LM) 简介

语言模型用来判断：是否一句话从语法上通顺

用计算概率的方式判断
$P_{LM}（今天是周日）> P_{LM}（今天周日是）$
那么如何得到这个模型 $P_{LM}$

Language Model（LM）的目标(object):

Compute the probability of a sentence or sequence of words. $p(s)=p(w_1,p_2,p_3,...,p_n)$

Chain Rule

在这里插入图片描述

sparsity 稀疏性问题

当一条句子中包含的单词太多，会导致这条句子在语料库中很难找到。因此计算这种长句的概率，大部分的概率值都为0。那么对长句通过统计的方法计算出来的概率值是没有多大意义的。
比如你要计算 $p (休息 ∣ 今天，是，春节，我们，都)$ 的概率值，那么你要统计出 “今天是春节我们都” 出现的频数，然后统计出 “今天是春节我们都休息” 的频数。
但是你会发现这句子在语料库中出现的次数太低，导致结果没有多大意义。

马尔可夫假设

解决sparsity 稀疏性问题的思路：马尔可夫假设
在这里插入图片描述

举例：
$1^{st}order$ 的语言模型的使用案例:

Language Model: Unigram, Bigram, N-gram

由不同的马尔可夫假设，可以得出不同的语言模型 Language Model: Unigram, Bigram, N-gram
在这里插入图片描述

一般情况下，N取2或者3.

举例：Unigram, Bigram 模型的训练过程和使用

Unigram

因为是Unigram ，则有
在这里插入图片描述
那么现在，我们就要计算出这里的每个概率值

这里，假设有一个语料库

我们要计算出， $p (我们)$ 的概率值
通过统计，发现，
语料库中词语 “我们” 出现的次数为C(我们) = 100 次
语料库中，总共的词语个数为 $V = 10^6$ ,
则 $p(我们) = 100/10^6$

下面是一个完整的例子
在这里插入图片描述
这里错了，这里，V是词典中单词的个数（不包括重复的单词）。所以上面的V = 17,而不是19

Bigram

同理，可得出
在这里插入图片描述
这里错了，这里，V是词典中单词的个数（不包括重复的单词）。所以上面的V = 17,而不是19

语言模型的评估-----Perplexity

评估模型为：
在这里插入图片描述
这里：
x是平均的log 似然值
Perplexity 越小，模型越好
评测过程：

首先，你是语料库A训练得出语言模型 LM（训练好的Bigram）；
然后，将模型LM放入评估语料库B里面，利用模型LM生成语料库B，从而计算出它的平均l og 似然值。
比如：语料库中仅仅只有一句话： “今天天气很好，适合出去运动”，那么
直接预测 “今天”
再给定 “今天” 预测 “天气”，今天天气
再给定 “今天天气” 预测 “很好”，今天天气很好

下面，给出38million的单词下得出的模型LM, 放在1.5million的语料库中，得出的Perplexity

平滑函数

共有4个平滑函数
在这里插入图片描述
为什么需要平滑？
因为稀疏性问题, 有的句子，有的词，在语料库中就是没有。
那么计算的概率值必然为0. 但是，有的时候，我们不希望它为0，（因为不能因为一个单词的缺失就放弃整个句子），那么我们就可以加上平滑，从而保证结果不为0.

Add-one Smoothing (也就是拉普拉斯平滑)

在这里插入图片描述
这里，V是词典中单词的个数（不包括重复的单词）。

在这里插入图片描述

Add-K Smoothing

在这里插入图片描述

Interpolation

在这里插入图片描述

Good-Turning Smoothing

将还没有出现的情况也考虑了进去。
在这里插入图片描述

语言模型的应用：生成句子

在这里插入图片描述

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。