贝叶斯分类器是基于“后验概率”实施决策的基本方法,通过最大化后验概率进行单点估计。根据贝叶斯原理,可知:
其中x为属性向量,c为类别label。
P(c)是类“先验”概率,表示样本空间中各类别结果所占的比例;P(x|c)是条件概率,其大小等于。
为了方便计算条件概率,引入“属性条件独立性假设”,即各属性之间相互独立,互不影响,称之为“朴素贝叶斯”。那么,
显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率。在满足独立同分布时,
, 。
但是在训练过程中,若某个属性值在训练集中没有与某个类同时出现时,则基于上述公式进行训练时则会出现问题。为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”,具体来说,令N表示训练集D中可能的类别数目,Ni表示第i个属性可能的取值数目,则:
, 。