我的第一篇学习笔记——使用朴素贝叶斯算法对文档分类详解

本文详细介绍了如何使用朴素贝叶斯算法进行文档分类,以过滤论坛留言为例,阐述条件概率、词袋模型、训练算法和测试算法的步骤。通过构建词向量,计算特征在各类文档中的条件概率,最终实现分类。文中还提到在训练和分类过程中遇到的问题及解决方案,如概率为0的处理和避免概率相乘导致的精度问题。
摘要由CSDN通过智能技术生成

朴素贝叶斯算法可以实现对文档的分类,其中最著名的应用之一就是过滤垃圾邮件。先做一个简单的分类,以论坛的留言为例,构建一个快速的过滤器,来区分哪些留言是负面言论,哪些是正面言论。

我对算法思路的理解:首先计算训练集中每个词语分别在正面(负面)文档中出现的概率以及正面(负面)文档的概率,再计算待分类样本中的每个词语属于正面(负面)文档的概率和正面(负面)文档概率的乘积,即为该样本属于正面(负面)样本的概率,样本属于哪一类文档的概率较大就归为哪类文档(读着有点绕),下面详细介绍分类的过程。

1. 条件概率

首先来学习一下基于条件概率的分类思想。对于样本A,它属于类别c_1的概率为P(c_1 |A),属于样本c_2的概率为P(c_2 |A),定义贝叶斯分类准则为:

  • 如果P(c_1 |A)>P(c_2 |A),那么样本A属于类别c_1
  • 如果P(c_1 |A)<P(c_2 |A),那么样本A属于类别c_2

完整的贝叶斯公式如下:

P(B_i |A)=P(A|B_i )P(B_i )/(\sum_{j=1}^{n}P(A|B_j )P(B_j ) ) \: \:\: \: \, \, \, \, i=1,2,...,n

在此分类算法中,我们用它的简化形式:

P(c_1 |A)=P(A|c_1 )P(c_1 )/P(A)

用分类的思想可以这样理解这个公式:A是待分类样本的特征集合,那么要求得A属于类别c_1的概率,就转化为求训练集中,类别c_1的样本集中特征集

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值