关于语言模型中的平滑

最新推荐文章于 2023-11-08 19:43:29 发布

rexyang97

最新推荐文章于 2023-11-08 19:43:29 发布

阅读量447

点赞数

分类专栏： nlp 文章标签：语言模型概率论人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rexyang97/article/details/121079934

版权

nlp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在语言模型计算概率的时候，我们会碰到概率为0的情况，即计算的单词在语言模型中并没有出现过。这个时候会使用平滑的方法计算概率，一般分为以下几种：

Add-One Smoothing

Add-K Smoothing

其中Add-One Smoothing可以看作Add-K Smoothing中K为1的变种。概率计算即为

(C+k)/(N+kV)

其中C为需要计算的情形出现的次数，N为语料库中所有情形的次数，V为语料库中所有情形的种类。

Interpolation

Interpolation 即为同时考虑多种语言模型，如Uni-Gram，Bi-Gram，Tri-Gram进行加权平均

Good-Turning Smoothing

Good-Turning Smoothing认为当前情形出现概率与语料库中出现次数与之相等的情形和出现次数多一次的情形相同。认为当此情形出现次数为(C+1) $N_{c}$ / $N_{c+1}$ 。 $N_{c}$ 为出现次数为c的情形种类。然后除以N即为Good-Turning Smoothing计算的概率。

Good-Turning Smoothing会出现一个问题，即当c大的时候可能会出现 $N_{c+1}$ 为0的情况。这个时候我们可以使用一个回归模型计算出 $N_{c+1}$ 的模拟值进行计算。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于语言模型中的平滑

在语言模型计算概率的时候，我们会碰到概率为0的情况，即计算的单词在语言模型中并没有出现过。这个时候会使用平滑的方法计算概率，一般分为以下几种：Add-One SmoothingAdd-K Smoothing其中Add-One Smoothing可以看作Add-K Smoothing中K为1的变种。概率计算即为(C+k)/(N+kV)其中C为需要计算的情形出现的次数，N为语料库中所有情形的次数，V为语料库中所有情形的种类。InterpolationInterpolation 即为.
复制链接

扫一扫

专栏目录

rexyang97 CSDN认证博客专家 CSDN认证企业博客

码龄8年

29: 原创

15万+: 周排名

52万+: 总排名

2万+: 访问

: 等级

334: 积分

7: 粉丝

44: 获赞

11: 评论

73: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于贝叶斯网络的一些判定
hulingxiang666: 我也觉得是
关于贝叶斯网络的一些判定
PlanDirs: 最后的例子写反了吧
Pandas中的时间序列
人间一宾客: 您好，这种可以点一下复制，可以放大看的代码是拿什么编辑出来的啊
关于贝叶斯网络的一些判定
rexyang97: 我查了一下pybbn的文档，我看了一下evidence是一个类，然后有evidence_updated()方法跟update_evidence()方法，还有一个UPDATE的状态，具体逻辑都在文档里面。我私信给你。我本身没有使用过pybbn可能不是很了解，不好意思。
关于贝叶斯网络的一些判定
總是忘記帳號密碼: 我是使用pybbn，經過多次測試後，發現兩者好像並無差異。但怕這兩種方法有不同的詮釋。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。