文档生成模型：多元贝努利vs多项式

最新推荐文章于 2024-09-27 17:16:42 发布

六个轱辘

最新推荐文章于 2024-09-27 17:16:42 发布

阅读量2.4k

点赞数

分类专栏：文本检索机器学习文章标签：文档分类多元贝努利模型多项式模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tjy1220646144/article/details/45502955

版权

机器学习同时被 2 个专栏收录

10 篇文章

订阅专栏

7 篇文章

订阅专栏

在使用朴素贝叶斯（NB）对文档进行分类时，会使用到文档的生成模型，为什么呢？还是从贝叶斯公式出发，其中右半部分就是生成一篇文档的过程，首先选择一个类c，然后根据这个类以一定概率生成文档d。P(c)没什么说的了，满足categorical分布（一次的多项式分布）就可以了。而P(d|c)就比较有意思了，主要可以用两种分布来模拟，一种是多元贝努利分布，一种是多项式分布，这里介绍这两种模拟方法的思想和区别。

多元贝努利分布模拟文档生成：

现在假设词汇表是V，它包含M个词，那么使用多元贝努利模型生成一篇文档可以看作是这样的一个过程：

从头至尾遍历一遍词汇表，并指定某个词tk是否在文档d的中出现，这样就生成了一篇文档！

这样一个过程生成一篇文档其实是相当粗糙的，准确的说它其实只是指定了该文档中包含词汇表中的哪些单词而已。

可以看出该模型忽略了词项出现的次数、词项出现的位置和词项之间的相关性（NB的特性）。

所以一篇文档可以表示为一个bool向量，即：，其中ei表示词项ti是否出现在文档d中。

该模型需要估计的参数为，就是在某个类别c中词项ti出现的概率是多少。

决策规则：最大化（这里应用了NB的性质，即词项之间是独立的）

注意：这个决策函数跟多元贝努利有一些区别，即它没有考虑词不出现的情况，可以看出当对同一篇文档进行分类时，这个值是没有必要计算的。

多项式分布模拟文档生成：

使用多项式模型生成一篇文档可以看作是这样一个过程：

假设你有一个骰子，每个面是一个词项，当然每个面出现的概率是不一样的，同时对于不同的类别，骰子也是不一样的，即各个面的概率分布不同。

然后对于一篇文档d的每个位置，你就掷骰子就可以了。它会以一定概率产生一个词项，最终所有词项组成一篇文档！

可以看出使用多项式分布生成一篇文档相比于使用多元贝努利生成一篇文档好像不那么粗糙了，因为：

该模型忽略了不同位置的差异性和词项之间的相关性（NB的特性）。即某个词项t出现在位置a和出现在位置b是没有区别的（词袋模型）！

多项式模型对词项出现的次数进行了建模！

所以一篇文档可以看作是一系列词项组成的向量，其中tk表示某个词项，在该向量中可以出现重复的词项。

该模型需要估计的参数为，即某个词项tk的概率，为了不要把这个参数与多元贝努利模型中的参数的含义搞混，就记住这个概率是生成文档的骰子的某一面出现的概率，所有面之和为1！而多元贝努利那个参数是某个词项出现与否的概率！

决策规则：最大化（这里也应用了NB的性质，即词项之间是独立的）

注意：这个决策函数与多项式分布也有一些不同，即省略了系数，因为对于同一篇文档，该系数是常数。

多元贝努利vs多项式：

那么问题来了，这两个模型哪个好呢？肯定是个有所长了！

1. 贝努利模型不考虑词项出现的次数，而多项式模型考虑；

2. 贝努利模型适合处理短文档，而多项式模型适合处理长文档；

3. 贝努利模型在特征数较少时效果更好，而多项式模型在特征较多时效果更好；

4. 多于词项“the”的估计：

第4条可以明显感觉两个模型的不同，也很好理解：对于词项“the”，几乎每篇文档都出现，所以在多元贝努利模型中它的概率接近1。而在多项式模型中“the”只是骰子的一面！其出现的概率很大，但是也只有0.05！

博客等级

码龄15年

22
原创

23
点赞

36
收藏

13
粉丝

关注

私信

热门文章

分类专栏

最新评论

如何判断双链表是否有环
weixin_40091363: 遍历链表判断当前节点的next.pre 是不是当前节点不可以么
MLE极大似然估计
花落知多少灬: 谢谢楼主，讲的非常清楚
使用KD树进行最近邻查找的例子
「已注销」: 关于kd树看看这篇文章吧说的非常详细还有代码实现 https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.html
使用KD树进行最近邻查找的例子
lhanchao: 或者说判断是否需要查找父节点的另一子节点区域的标准不是通过比较查找点与当前结点的欧式距离和查找点与当前结点父节点的欧氏距离的，而是比较查找点离结点所在的超平面的距离？
使用KD树进行最近邻查找的例子
lhanchao: kd树找到的最近邻结果不一定是正确的吧？以上面那个例子看，如果查找点为（2，,5）的时候，找到的最近邻就是（4,7）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。