狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)

最新推荐文章于 2024-06-04 11:10:50 发布

J-Ombudsman

最新推荐文章于 2024-06-04 11:10:50 发布

阅读量6.8k

点赞数 4

分类专栏：机器学习文章标签：狄里克雷平滑线性插值平滑拉普拉斯平滑

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010138758/article/details/61413975

版权

一元语言模型（Unigram Language Model）就是关于全部单词上的一个概率分布，它认为每篇文章都对应一个一元语言模型，文章中的单词都是从这个概率分布中采样得到。所以计算文章和查询语句之间的相关性，相当于计算文章对应的一元语言模型产生出查询语句的概率。

通常我们统计文档中的单词频率分布来估计文章对应的一元语言模型，但是未出现在文档中的单词的概率就被设置为0了，这显然是不合理的。所以需要对得到的一元语言模型进行平滑，使其更接近真实的概率分布。（说白了就是给那些未出现在文档中的单词分配些概率）

一，线性插值平滑

上式是线性插值平滑法，其中P(w|D)表示从文档中估计得到的单词w的概率（也就是单词w的在文档D中出现的个数除以文档D中单词总数）。P(w|C)是从语料库中估计得到的单词w的概率（也就是单词w的在语料库C中出现的个数除以语料库C中单词总数）。λ是平滑参数，调整两种概率之间的权重。M_D是最后得到的一元语言模型，P(w|M_D)表示一元语言模型M_D产生单词w的概率。

文档中单词个数有限，对一些和本文档主题无关的单词w，它的P(w|D)很可能为0。但是语料库C表示所有文档的集合，所以P(w|C)

最低0.47元/天解锁文章

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)

一元语言模型（Unigram Language Model）就是关于全部单词上的一个概率分布，它认为每篇文章都对应一个一元语言模型，文章中的单词都是从这个概率分布中采样得到。所以计算文章和查询语句之间的相关性，相当于计算文章对应的一元语言模型产生出查询语句的概率。通常我们统计文档中的单词频率分布来估计文章对应的一元语言模型，但是未出现在文档中的单词的概率就被设置为0了，这显然是不合理的。所以需
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。