朴素贝叶斯分类

最新推荐文章于 2022-11-27 18:20:34 发布

Thinking_boy1992

最新推荐文章于 2022-11-27 18:20:34 发布

阅读量530

点赞数

一个简单的例子
朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：
这里写图片描述
这个公式虽然看上去简单，但它却能总结历史，预知未来。公式的右边是总结历史，公式的左边是预知未来，如果把 Y 看做类别，X 看做特征，P( Yk | X ) 就是在已知特征 X 的情况下求属于 Yk 类别的概率，而对 P(Yk|X) 的计算又全部转化到类别 Yk 的特征分布上来。
当特征不唯一是：
这里写图片描述
当假设这些影响结果的特征是独立互不相关的，即做独立性假设：

贝叶斯分类器
朴素贝叶斯分类器的表示形式：
这里写图片描述
当特征为 x 时，计算所有类别的条件概率，选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的，因此计算时可以不考虑分母，即

朴素贝叶斯的朴素体现在其对各个条件的独立性假设上，加上独立假设后，大大减少了参数假设空间。
* 在文本分类上的应用*
文本分类的应用很多，比如垃圾邮件和垃圾短信的过滤就是一个2分类问题，新闻分类、文本情感分析等都可以看成是文本分类问题，分类问题由两步组成：训练和预测，要建立一个分类模型，至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上：现在有一篇文档d（Document），判断它属于哪个类别ck，只需要计算文档d属于哪一个类别的概率最大：
这里写图片描述
在分类问题中，我们并不是把所有的特征都用上，对一篇文档d，我们只用其中的部分特征词项