贝叶斯分类器与朴素贝叶斯分类器（Naive Bayesian Classifier，NBC）

最新推荐文章于 2024-05-23 15:43:21 发布

MagicQIT

最新推荐文章于 2024-05-23 15:43:21 发布

阅读量2.3k

点赞数

本文链接：https://blog.csdn.net/MagicQIT/article/details/41444753

版权

贝叶斯的强大之处就在于可将先验概率与后验概率互相转换。用不精确的语言说，就是待分属性属于哪个目标类别的可能性最大，就将其归到相应的类别。而属于哪个类别的概率判断就根据以往的先验知识，看看以往该类别的情况下出现该待分属性的概率有多大。若以某文档D作为待分类属性，类别C表示不同目标类别，若要判断D文档属于C类的概率，则利用一般贝叶斯分类器的过程是这样的。首先确定要解决的问题是P(C|D)这个条件概率。由于直接计算这个概率不好计算，就利用贝叶斯公式，P(C|D)=P(D|C)P(C)/P(D)，通过对于样例的训练，我们可以通过bag of words的假设估计出P(D|C),也可以统计出P(C),分母对于所有类别都一样，因此可以忽略。这样，我们就可以把文档D划分到一个概率最大的类C里，就完成了对文档D的分类。

朴素贝叶斯中，其naive的地方在于，强制认为给定目标值时，属性（大小，格式）之间相互条件独立儿一般情况是(P(ABCD)=P(DIABC)P(ABC)=P(DIABC) P(CIAB)P(BIA)P(A))，然后进行分类。

假设现在我们的待分类属性是有两个变量组成的，文档的大小和格式，现在要来判断某文档该归类于科学类文档、还是艺术类文档。也就是比较

P(科学|大小，格式)和P(艺术|大小, 格式)，那个概率大，则判断该文档属于哪个目标类别。根据贝叶斯公式，

P(科学|大小，格式)=P(大小，格式 I 科学)×P(科学)/P(大小，格式)
根据朴素贝叶斯的条件独立假设， P(大小，格式|科学)=P（大小I科学）P（格式I科学）
其中的P（大小I科学）和P（格式I科学）两项都可以通过 training set 直接求得。具体算法流程图如下（摘自http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html）