我的第一篇学习笔记——使用朴素贝叶斯算法对文档分类详解

最新推荐文章于 2023-10-13 10:06:59 发布

赵赵赵颖

最新推荐文章于 2023-10-13 10:06:59 发布

阅读量2.6k

点赞数 7

分类专栏：机器学习笔记文章标签：文档分类分类算法朴素贝叶斯机器学习条件概率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leaf_zizi/article/details/82143882

版权

本文详细介绍了如何使用朴素贝叶斯算法进行文档分类，以过滤论坛留言为例，阐述条件概率、词袋模型、训练算法和测试算法的步骤。通过构建词向量，计算特征在各类文档中的条件概率，最终实现分类。文中还提到在训练和分类过程中遇到的问题及解决方案，如概率为0的处理和避免概率相乘导致的精度问题。

摘要由CSDN通过智能技术生成

朴素贝叶斯算法可以实现对文档的分类，其中最著名的应用之一就是过滤垃圾邮件。先做一个简单的分类，以论坛的留言为例，构建一个快速的过滤器，来区分哪些留言是负面言论，哪些是正面言论。

我对算法思路的理解：首先计算训练集中每个词语分别在正面（负面）文档中出现的概率以及正面（负面）文档的概率，再计算待分类样本中的每个词语属于正面（负面）文档的概率和正面（负面）文档概率的乘积，即为该样本属于正面（负面）样本的概率，样本属于哪一类文档的概率较大就归为哪类文档（读着有点绕），下面详细介绍分类的过程。

1. 条件概率

首先来学习一下基于条件概率的分类思想。对于样本，它属于类别 c_1 的概率为 P(c_1 |A) ，属于样本 c_2 的概率为 P(c_2 |A) ，定义贝叶斯分类准则为：

如果，那么样本属于类别
如果，那么样本属于类别

完整的贝叶斯公式如下：

$P(B_i |A)=P(A|B_i )P(B_i )/(\sum_{j=1}^{n}P(A|B_j )P(B_j ) ) \: \:\: \: \, \, \, \, i=1,2,...,n$

在此分类算法中，我们用它的简化形式：

P(c_1 |A)=P(A|c_1 )P(c_1 )/P(A)

用分类的思想可以这样理解这个公式：是待分类样本的特征集合，那么要求得属于类别 c_1 的概率，就转化为求训练集中，类别 c_1 的样本集中特征集

最低0.47元/天解锁文章

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。