语言模型笔记1-简单介绍

最新推荐文章于 2024-06-25 23:30:14 发布

CCChenhao997

最新推荐文章于 2024-06-25 23:30:14 发布

阅读量1k

点赞数 3

分类专栏： NLP 文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35687547/article/details/100839368

版权

NLP 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

原文链接：http://chenhao.space/post/3423f471.html

语言模型是用来计算一个句子的概率的模型，通俗的说，语言模型是用来判断一句话从语法上是否通顺。

如下：

通过概率计算得出正确的句子顺序：

N-gram(n元语言模型)

Unigram(一元语言模型)

当n=1时，称为Unigram，一元语言模型假设词语之间是相互独立的。

缺点：不考虑单词之间的顺序。

Bigram(二元语言模型)

n=2时，称为Bigram。当前词的出现概率与前一个词有关，考虑了两个单词之间的顺序。

Trigram(三元语言模型)

n=3时，称为Trigram。当前词的出现概率与前两个词有关。

估计语言模型的概率

Unigram模型的概率计算

Bigram模型的概率计算

Trigram模型的概率计算

评估语言模型指标

Perplexity

计算过程：

Perplexity的值越小，说明模型越好。

还有其他的一些评估语言模型的方法，根据不同的应用场景，使用不同的评估方法。

Smoothing(平滑操作)

Add-one Smoothing

Add-one Smoothing也称为拉普拉斯平滑(Laplace Smoothing)。

分子上加1是为了保证分子不为0，分母上加V(词典的大小)是为了保证概率之和为1。

Add-K Smoothing

Add-K Smoothing可以看作Add-one Smoothing的特例，当K=1时，Add-K Smoothing也就等于Add-one Smoothing。

K如何选择呢？

Interpolation

核心思想：在计算Trigram概率时同时考虑Unigram、Bigram、Trigram出现的频次。

Good-Turning Smoothing

缺点: 当计算频次为n的概率需要依赖n+1频次的概率，如果n+1次的概率为0怎么办？

解决: 利用机器学习方法拟合曲线去估计n+1次的概率。

利用语言模型生成句子

Unigram情况下

利用Unigram模型生成的句子没有逻辑性。

Bigram情况下

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
语言模型笔记1-简单介绍

原文链接：http://chenhao.space/post/3423f471.html语言模型是用来计算一个句子的概率的模型，通俗的说，语言模型是用来判断一句话从语法上是否通顺。如下：通过概率计算得出正确的句子顺序： N-gram(n元语言模型)Unigram(一元语言模型)当n=1时，称为Unigram，一元语言模型假设词语之间是相互独立的。缺点：不...
复制链接

扫一扫

专栏目录

CCChenhao997 CSDN认证博客专家 CSDN认证企业博客

码龄8年

59: 原创

7万+: 周排名

116万+: 总排名

13万+: 访问

: 等级

1367: 积分

40: 粉丝

100: 获赞

36: 评论

550: 收藏

私信

关注

热门文章

分类专栏

深度学习 4篇
Pytorch 5篇
MacOS 2篇
NLP 19篇
Pandas 1篇
Flask 2篇
Linux 2篇
Git 2篇
WebSpider 1篇
Algorithm 1篇
mongoDB 1篇
机器学习 6篇
Python 14篇

最新评论

Multi-grained Attention Network for Aspect-LevelSentiment Classification 阅读笔记
北門大官人: 粗粒度这个Aspect对齐损失，说实话，我觉得应该用KL散度来评估一个Aspect中的多个词语对于上下文注意力的分布，这样子能清晰地表达对于多个Aspect内部词语的注意力分布。
Multi-grained Attention Network for Aspect-LevelSentiment Classification 阅读笔记
北門大官人: 我的理解：如果一个 aspect 关注了一个词，那么另一个 aspect 对这个词的关注将减少。那他就默认两个aspect由不同的上下文词来描述，如果真实情况是两个aspect都由同一个上下文词描述呢？如：“快递收到啦，耳机和包装都非常不错！”，“不错”描述了“耳机”和“包装” 这个地方我觉得理解的也有点问题，这个损失函数是为了平衡一个Aspect内部几个单词对于上下文中的单词的关注度，而不是为了平衡多个Aspect之间对于同一个上下文单词的关注度。所以多个Aspect对于同一个词的影响互不影响。
Multi-grained Attention Network for Aspect-LevelSentiment Classification 阅读笔记
北門大官人: 设 ai 和 aj 是一个方面对，我们在粗粒度 attention vector 计算平方差损失这句话我觉得表述有点问题，一开始我还有点懵逼呢，以为ai 和aj是两个Aspect呢。仔细看了以后才知道是，一个Aspect = {词1 词2 ... 词i 词j 词M} ，为了让这个Aspect中间所有的单个词语，对于上下文中每个词语，关注度都是一样的。这样子减小一个Aspect中多个词语对于上下文中的一个词语的关注度的差异。
sklearn库的安装教程
dsddays: 不错不错感谢
sklearn库的安装教程
FengYD123: 一直显示404怎么解决的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。