朴素贝叶斯分类算法

最新推荐文章于 2022-11-28 01:58:06 发布

rexyang97

最新推荐文章于 2022-11-28 01:58:06 发布

阅读量796

点赞数 2

分类专栏：机器学习分类算法文章标签：分类算法

本文链接：https://blog.csdn.net/rexyang97/article/details/117912159

版权

机器学习同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

分类算法

5 篇文章 0 订阅

订阅专栏

在学习概率论的时候我们都学习过贝叶斯公式，即

$P(A|B)=\frac{P(AB)}{P(B)}=\frac{P(B|A)*P(A))}{P(B)}$

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是别的大洲的人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

所以朴素贝叶斯分类的基础就是贝叶斯公式，只不过我们得把表达式换一换：

一般来说，整个朴素贝叶斯分类分为三个阶段：

准备工作阶段，任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

分类器训练阶段。这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

我们通过朴素贝叶斯的共识可以发现，若某个属性值在训练集中没有与某个类同时出现过，那么无论该样本的属性如何，他的概率都是变成零，这在某些情况下是不合理的，这种时候我们就需要进行某种平滑。即拉普拉斯平滑，引入拉普拉斯平滑系数 $\alpha$ 。