朴素贝叶斯算法可以实现对文档的分类,其中最著名的应用之一就是过滤垃圾邮件。先做一个简单的分类,以论坛的留言为例,构建一个快速的过滤器,来区分哪些留言是负面言论,哪些是正面言论。
我对算法思路的理解:首先计算训练集中每个词语分别在正面(负面)文档中出现的概率以及正面(负面)文档的概率,再计算待分类样本中的每个词语属于正面(负面)文档的概率和正面(负面)文档概率的乘积,即为该样本属于正面(负面)样本的概率,样本属于哪一类文档的概率较大就归为哪类文档(读着有点绕),下面详细介绍分类的过程。
1. 条件概率
首先来学习一下基于条件概率的分类思想。对于样本,它属于类别的概率为,属于样本的概率为,定义贝叶斯分类准则为:
- 如果,那么样本属于类别
- 如果,那么样本属于类别
完整的贝叶斯公式如下:
在此分类算法中,我们用它的简化形式:
用分类的思想可以这样理解这个公式:是待分类样本的特征集合,那么要求得属于类别的概率,就转化为求训练集中,类别的样本集中特征集