参考资料地址: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
我的数据挖掘算法实现源码地址:https://github.com/linyiqun/DataMiningAlgorithm
介绍
要介绍朴素贝叶斯算法(Naive Bayes),那就得先介绍贝叶斯分类算法,贝叶斯分类算法是统计分类算法的一种,他是一类利用概率统计知识进行的一种分类算法。而朴素贝叶斯算法就是里面贝叶斯算法中最简单的一个算法。为什么叫做朴素贝叶斯,因为他里面的各个类条件是独立的,所以一会在后面的计算中会起到很多方便的作用。
朴素贝叶斯算法原理
首先在这里用到了一个概率公式:
P(B|A)的意思是在A事件的情况下,发生B事件的概率,可以理解为概率论中的条件概率,而贝叶斯公式的巨大作用就是对因果关系进行了交换,通过上面的公式就可以计算P(A|B)的概率,只要通过上述的转换。
上面的资源地址上已经对朴素贝叶斯算法的原理描述的非常清楚了,我在他的基础上做了点注释方便于后面代码的理解:
朴素贝叶斯分类的正式定义如下:
1、设为一个待分类项,而每个a为x的一个特征属性。(在后面的例子中x={"Youth", "Medium", "Yes", "Fair"},里面的4个因子为他的特征向量)
2、有类别集合。(在后面的类别中只有buy_computer的分类yes, no,C={yes, no})
3、计算