一、朴素贝叶斯分类器的原理
朴素贝叶斯方法是基于贝叶斯公式与特征条件独立的假设的分类方法。对于给定的训练数据集,基于特征条件独立的假设学习输入输出的联合概率分布,这样就学到了一个生成模型,然后基于该模型,对于给定的测试样本
,利用贝叶斯公式求出输出概率(或概率密度)最大的输出
。具体如下
在训练集中,给定了
个带标签的数据,记为
,其中
是
维(特征)向量(即实例点),通常在
中取值。
是该实例点的标签,表示该点的类别,在一个离散集合
取值(假设共有
个类别)。在贝叶斯分类器中有一个假设:存在一个联合分布
,训练数据
都是由该分布独立产生的。接下来,我们希望通过训练集中的数据估计该联合分布。由于
,所以我们先对
的分布进行估计。由于
只有有限个取值,在训练数据集中,我们通过频率来估计概率(这也是概率的最大似然估计):
这样就估计出了随机变量
的分布律。
接下来估计每一类中
的分布,即故意
。由于