数据平滑自然语言处理

最新推荐文章于 2023-10-16 09:30:27 发布

Jaichg

最新推荐文章于 2023-10-16 09:30:27 发布

阅读量1.3k

点赞数

分类专栏：自然语言处理文章标签：数据平滑

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jiaach/article/details/79575611

版权

问题提出：为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”，即提高低（零）概率，降低高概率，尽量使得概率分布趋于均匀。加一平滑方法假设每个二元语法出现的次数比实际出现的次数多一次，不妨将该处理方法称为加1法。p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]p(...

摘要由CSDN通过智能技术生成

问题提出：为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”，即提高低（零）概率，降低高概率，尽量使得概率分布趋于均匀。

加一平滑方法

假设每个二元语法出现的次数比实际出现的次数多一次，不妨将该处理方法称为加1法。

$p(w_i|w_{I-1})=\frac{1+c(w_{i-1},w_i)}{\sum\limits_{w_i}[1+c(w_{i-1},w_i)]}=\frac{1+c(w_{i-1},w_i)}{|V|+\sum\limits_{w_i}[1+c(w_{i-1},w_i)]}$

加法平滑方法

$p(w_i|w_{I-1})=\frac{\delta+c(w_{i-1},w_i)}{\delta|V|+\sum\limits_{w_i}[1+c(w_{i-1},w_i)]}$

其中 $0\leq\delta\leq1$

Good-Turing估计法

$n_r 是训练语料中恰好出现r次的n元语法的数目，假设它出现了r^{*}次。$

$r^{*}=(r+1)\frac{n_{r+1}}{n_r}$

对于统计数为r的n元语法，其概率为 pr=r∗∑r=1∞nrr

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据平滑自然语言处理

问题提出：为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”，即提高低（零）概率，降低高概率，尽量使得概率分布趋于均匀。加一平滑方法假设每个二元语法出现的次数比实际出现的次数多一次，不妨将该处理方法称为加1法。p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]p(...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。