在很多的应用中,属性集与类别之间的关系是不确定的,换句话说,尽管测试样本的属性值与训练样本相同,但是也不一定能正确的预测其类别,其中一个原因是噪声的存在,另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻,之所以称为“朴素”贝叶斯方法,是因为在分类时,假定了“各变量间相互独立”的条件,这个条件算是比较强的了,大大简化了分类时的计算,但同时也丢失了一些分类准确性,毕竟不是所有变量都相互独立。为了弱化“各变量间相互独立”条件的影响,人们又提出了基于贝叶斯方法的其它分类方法,如贝叶斯信念网络。总之,我们在数据挖掘时希望“各变量间相互独立”条件是成立的,但实际并非那样,因此在需要考虑变量间存在相关性的问题,或许在提取数据特征的时候,我们可以做到从源头去满足“各变量间相互独立”条件,这样最好了。扯远了,还是介绍一下朴素贝叶斯分类方法吧。
1. 贝叶斯定理的应用
在其它一些分类方法中(如决策树、基于规则的分类、K最邻近分类等),类别预测结果是唯一的,而在朴素贝叶斯分类方法中,对于待分类样本,可能出现算得其有70%的可能性属于类,有25%的可能性属于类,有5%的可能性属于类,这是朴素贝叶斯分类方法的特别之处,依据计算结果的大小,最终当然有理由认为属于类。
对朴素贝叶斯分类器的训练也即是生成一张概率表,为了生成这张概率表,我们先引入贝叶斯定理,对贝叶斯理论这里就不多说了,这里直接引入贝叶斯公式,然后说明该公式是如何在分类过程中作用的
表示类别的先验概率,可以理解为当我们对待分类样本的取值一无所知时,将其分为不同类的概率。我们可以按照以下公式确定
表示类的先验概率,表示训练集中属于类的样本个数,