NLP（三）——语言模型

最新推荐文章于 2024-07-12 16:55:56 发布

秃头研究生

最新推荐文章于 2024-07-12 16:55:56 发布

阅读量2.9k

点赞数 3

分类专栏：跨模态检索文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Exception_3212536934/article/details/124661645

版权

跨模态检索专栏收录该内容

4 篇文章 2 订阅

订阅专栏

目录

评估语言模型

Add-one Smoothing

Add-K Smoothing

Good-Turning Smoothing

Language Model

语言模型用来判断一句话是否从语法上通顺。

Unigram

Unigram模型假定各个部分相互独立，此种模型下概率计算会相对简单，但是存在问题：下图中的第二个概率和第三个概率计算结果一样，概率是等同的，判断不出这两句话的语义上的区别。

Unigram模型下评估概率，统计出一篇文章中的单词个数v，然后再分别统计各个单词的个数c(i)，然后这个单词的概率就是c(i)/v，然后利用上图中的公式就可以估计出一个句子的概率。例子如下图：

Bigram

Bigram模型依赖于1st order 马尔科夫假设，考虑到了两个单词之间的顺序问题，此种模型下能判断出下图中的第二句话和第三句话哪句话语义上更好。

Bigram模型下评估概率，主要分为两部分，其中第一部分是评估单词的概率，这个时候的计算方法就和Unigram中的一样；另一部分是条件概率P(C1|C2)，先找出出现单词C2的次数a，然后找出出现C2后，紧挨着后面出现C1的次数b，那概率P(C1|C2)=b\a。例子看下图：

N-gram

最常用的是N=3的情况，具体例子如下图：

N-gram模型下评估概率方法和上述两种方法一样，例子如下：

评估语言模型

Perplexity

Perplexity= $2^{-x}$ ，其中这个x是average log likelihood，我们期望的是训练出来的语言模型评估出的likelihood（也就是概率）是越大越好，由于log函数是单调递增的，所以期望的x也是越大越好，所以Perplexity就是期望越小越好。

Smoothing

上文中的几种模型评估概率时，当其中一项为0时，那整体就为0，这样就存在不能很好的区分句子的问题，为了解决这个问题，提出了Smoothing这个方法。

Add-one Smoothing

v是词典的大小，注意是排除掉重复词后的个数，具体计算例子如下图：个人认为图片上的计算有点小错误，个人理解公式的分母应该是 $c\left ( w_{i-1} \right )$ ，这样才能和图中的计算过程对得上。

Add-K Smoothing

当K=1时就变成了Add-one Smoothing的情况。

Interpolation

核心思路：在计算Trigram概率的同时考虑Unigram、Bigram、Trigram出现的频次。

Good-Turning Smoothing

对于没有出现过的单词： $P_{GT}= \frac{N1}{N}$ ，其中N是单词总的个数，N1是指只出现一次的单词的个数。

对于已经出现过的单词： $P_{GT}= \frac{\left ( c+1 \right )\cdot N_{c+1}}{Nc\cdot N}$ ，其中c是指这个已经出现过的这个单词总共出现的次数， $N_{c}$ 是指单词总数为c的单词有几种，比方说N2就是指出现过两次的单词有哪些单词，然后N2就是这些单词的个数。

秃头研究生

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP（三）——语言模型

目录Language ModelUnigramBigramN-gram评估语言模型PerplexitySmoothingAdd-one SmoothingAdd-KSmoothingInterpolationGood-Turning SmoothingLanguage Model语言模型用来判断一句话是否从语法上通顺。UnigramUnigram模型假定各个部分相互独立，此种模型下概率计算会相对简单，但是存在问题：下图中的第二个概率和...
复制链接

扫一扫

专栏目录

秃头研究生 CSDN认证博客专家 CSDN认证企业博客

码龄6年

26: 原创

13万+: 周排名

153万+: 总排名

9万+: 访问

: 等级

398: 积分

60: 粉丝

79: 获赞

12: 评论

561: 收藏

私信

关注

热门文章

分类专栏

最新评论

NLP（二）——文本表示
偶尔躲躲乌云_Asterial: 宝，word embeddings是词嵌入的意思，词向量指的是词的向量，例如 onehot 的编码编出来的那玩意也叫词向量
PyCharm中DataFrame对象类不出代码提示
王凯宁: 太强了，真的可以，不知道啥原因
模式识别作业-线性分类器设计总结
新盖中盖高钙片: 请问同学有青岛大学模式识别的鸢尾花数据集吗？他是四类的，我没找到
强化学习--DDPG算法
柏某: 我看到那个论文上写到是select action at = μ（st|θμ）+Nt ，according to the current policy and exploration noise，不过这里应该也差不多吧
强化学习--DDPG算法
橘子皮303: 这个随机选择动作指的是添加一个随机噪声之后确定的动作变得随机吧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。