基于贝叶斯分类器的分类问题主要是要求得:对于任一样本X,选择能够使得后验概率最大的类标记。一般,后验概率难以直接获得,可以通过条件概率的公式对后验概率进行一个转换:,对于给定样本p(X)与类标记无关,因此只需要基于训练数据集估计。其中,是先验概率,是类条件概率。由于类条件概率涉及到多个属性的联合分布,难以从有限的训练样本中得到,故在朴素贝叶斯分类器中假设“各属性条件独立”,则。到这里,可以得出,由最初的求max 转变为求max , 故现在只需根据已有的数据集求出各类别的概率,以及相应类别下的各属性的类条件概率函数, 在求类条件概率时,假设它们服从某一参数分布,例如常用的高斯分布,从而求出相应的参数,求出先验概率和类条件概率之后,对于任意给定的测试样本X, 都可以将其属性值带入
,比较在哪个类别下的概率最大,该样本X就属于哪一类。