一、贝叶斯决策论
1、假设有N种可能的类别标记,,是将一个真实标记为的样本误分类为所产生的损失,后验概率可获得将样本x分类为所产生的期望损失。
(1) 样本在x上的条件风险为:
(2) 样本的总体风险为:
2、根据贝叶斯判定准则,我们需要最小化总体风险,因此需要最小化条件风险:
(1)前面提及的误分类损失可写为:
(2)此时的条件风险为:
(3)由于需要最小条件风险,故需对取最大:
公式(3)为贝叶斯最优分类器
二、朴素贝叶斯分类器
1、基于朴素贝叶斯公式为:
2、基于属性条件独立性假设,上式可重写为:
代表类别,代表特征
3、综上贝叶斯表达式的公式为:
朴素贝叶斯分类器的训练过程是基于训练集D来估计先验概率,并为每个属性估计条件概率。
1) 先验概率为:
2) 条件概率分两种情况,一种是离散型属性的条件概率,另一种是连续型属性的条件概率,具体如下:
A、对于离散型条件概率:
B、对于连续型条件概率: