数据挖掘十大经典算法（九）-----Naive Baye

最新推荐文章于 2022-09-25 22:53:35 发布

liff_lee

最新推荐文章于 2022-09-25 22:53:35 发布

阅读量590

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/m0_38103546/article/details/81229488

版权

数据挖掘专栏收录该内容

29 篇文章 3 订阅

订阅专栏

简介

朴素贝叶斯算法是机器学习中为数不多的基于概率的分类算法，多用于文本分类。

贝叶斯分类的基础是概率推理，就是在各种条件的存在不确定，仅仅知道其出现概率的情况下，怎样完成推理和决策任务。概率推理是与确定性推理相应的。朴素贝叶斯分类器是基于独立如果的，即如果样本中每一个特征与其他特征都不相关；例如，如果一个水果具有红、圆、直径大概4英寸等特征，该水果判定为苹果。虽然这些特征相互依赖或者有些特征由其他特征决定，但是朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上是独立的。朴素贝叶斯分类器依靠精确的自然概率模型，在有监督学习的样本集中能获得很好的分类效果。在很多实际应用中，朴素贝叶斯参数预计使用最大似然估计。

朴素贝叶斯分类器的一个优势在于仅仅需要依靠少量的训练数据预计出必要的参数（变量的均值与方差），因为假设变量之间相互独立，仅仅需要预计各个变量的方法，而不需要确定整个协方差矩阵。

相关概念

1、条件概率

由于朴素贝叶斯有“朴素”的前提假设，即特征两两相互独立，所以条件规律可以使用全概率公式写成如下形式： $P\left ( x|w_{j} \right )=\prod_{k=1}^{n}P\left ( x_{k}|w_{j} \right )$ ,简单来说，此公式表示在给定某个类别下，观察到出现现象x的概率，在特征向量中的每个特点的概率都通过最大似然估计来求得，也就是求某个特征在某个类别中的概率， $P\left ( x_{i}|w_{j} \right )=\frac{N_{x_{i}|w_{j}}}{N_{w_{j}}}\, \, \, \, \, \, \left ( i=1,2,......n \right )$ .其中，属于类别 $w_{j}$ 的样本中，特征 $x_{i}$ 出现的次数。

2、先验概率

$P\left ( w_{j} \right )=\frac{N_{w_{j}}}{N}$ ,其中 $N_{w_{j}}$ 代表属于类 $w_{j}$ 的样本数量，N代表所有样本的数量。

3、现象概率

现象概率独立于类别，是在所有样本中该特征值的概率，和类别无关。

分类预测

得到每个特征值在该类下的概率后，给定未分类实例的特征X，就可以该实例属于各类的后验概率，然后取各类后延概率的最大值即可。

优点：

朴素贝叶斯发源于古典数学理论，有稳定的分类效率；
对小规模数据表现良好，能处理多分类任务，适合增量训练，尤其是数据量超出内存时，可以一批批额去增量训练；
对缺失数据不太敏感，算法也比较简单，常用于文本分类；

缺点：

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率，但是实际上因为模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好，而在属性相关性较小时，朴素贝叶斯性能最为良好；
需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以与很多种，因此在某些时候会由于假设的先验模型的原因导致预测的效果不佳；
由于通过先验和数据来决定后验概率从而进行分类，所以分类决策存在一定的错误率，对输入数据的表达形式很敏感；