NLP之平滑策略

最新推荐文章于 2024-07-30 18:36:42 发布

weixin_30680385

最新推荐文章于 2024-07-30 18:36:42 发布

阅读量395

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/fall12/p/7802636.html

版权

平滑

需要平滑原因有二：一，导致0概率，无法计算困惑度；二，对于一些未见过的句子，概率为0。

training set:
denied the reports
Test set:
denied the offer
P(offer| denied the) = 0

加1(拉普拉斯?) 平滑

Maximun Likelihood E stimates: P(Wi|Wi-1) = C(Wi-1, Wi) / C(Wi-1)

加1： P(Wi|Wi-1) = C(Wi-1, Wi) +1 / C(Wi-1) + V

会造成特别大的变化，效果并不是特别好，不适合用于N-grams.

Backoff: 如果没有证据证明trigram效果好，用bigram，unigram

Interpolation: 混合unigram、bigram、trigram. ——效果好些

总结：

加1平滑适用于文本分类；
Kneser-Ney (Interpolation扩展用的最广；
对于很大的Web数据，用Backoff

Good-Turing

Nc : 出现c次的个数 I-3 am-2 is-2 则：N2=2 N3=1
Good-Turing平滑:

Pgt(things with 0 frequency) = N1/N
C*= (c+1) Nc+1/ Nc
Pgt* = C*/N
但其实，很高的数，并不会直接这么算

可以和interpolation结合，加入unigram。

Kneser-Ney平滑：

更好的估计低概率的unigram。
Good-Turing、Kneser-Ney、Witten-Bell 利用出现过一次的词来估计未曾出现过的词的概率，把概率“分”一些给未曾出现过的，原有的概率会降低。

转载于:https://www.cnblogs.com/fall12/p/7802636.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。