朴素贝叶斯(Naive Bayes)是一种简单的分类算法。
一、朴素贝叶斯的理论基础
给定训练数据集(X,Y),其中每个样本x都包括n维特征,即x=(x1,x2,x3,…,xn),类标记集合含有k种类别,即y=(y1,y2,…,yk)。
如果现在来了一个新样本x,我们要怎么判断它的类别?从概率的角度来看,这个问题就是给定x,它属于哪个类别的概率最大。那么问题就转化为求解P(y1|x),P(y2|x),…,P(yk|x)中最大的那个,即求后验概率最大的。
P(yk|x)根据贝叶斯定理和全概率公式可以求出。分子中的P(yk)是先验概率,根据训练集就可以简单地计算出来。
贝叶斯公式:
全概率公式:
朴素贝叶斯算法对条件概率分布作出了独立性的假设,假设各个维度的特征x1,x2,…,xn互相独立。
那么条件概率公式可以化为:
于是朴素贝叶斯分类器可表示为:
因为对所有的yk,上式中的分母的值都是一样的,所以可以忽略分母部分。朴素贝叶斯分类器最终表示为: