贝叶斯分类器
贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记,即y={c1,c2,.....,cN},是将一个真实标记为cj的样本误分类为ci所产生的损失,基于后验概率P(ci | x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的“条件风险”
我们的任务是寻找一个判定标准h:X->Y以最小化总体风险。
贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c | x)最小的类别标记。
具体来说,若目标是最小化分类错误率,则误判损失可写为
此时条件风险
于是,最小化分类错误率的贝叶斯最优分类器为
不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c | x),这在现实中是难以直接获得的。
对于后验概率的估计有两种方法:(1)“判别式模型”,给定x,通过直接建模P(c | x)来预测c (2)“生成式模型”,对联合概率分布P(x,c)建模得到P(c | x);一般地,有决策树、BP神经网络、支持向量机
对生成式模型来说,必然考虑
基于贝叶斯定理,P(c | x)可写为
事实上,概率模型的训练过程就是参数估计过程。
朴素贝叶斯分类器
基于贝叶斯公式估计后验概率P(c | x)的主要困难在于:类条件概率P(c | x)是所有属性上的联合概率,难以从有限训练样本直接估计而得。为了避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。
基于属性条件独立性假设,可得
其中,d为属性数目,xi为x在第i个属性上的取值。
’